多语言展示
当前在线:888今日阅读:23今日分享:25

爬虫全教程:仔细 node.js 爬虫全过程!(三)

网络爬虫,以前都语言 Python 做爬虫比较多,现在是时候学习使用 nodejs 爬虫了~由于篇幅过长,本教程分为多节~
工具/原料
1

电脑

2

nodejs

本章学习
一、百度经验网站分析

网站登录    链接: https:。。。.baidu.com    登录:扫码登录,账户名登录文章列表:   链接:h。。。/user/nuc   登录之后方可获取个人文章列表

二、登录代码编写
1

百度经验登录这里我们使用用户名与密码的方式来登录。1.跳转 百度经验链接:经验的url地址2.点击登录3.点击用户名登录4.输入用户名,密码,5.验证码6.点击登录

3

login 函数中的 username, password 需要输入,就是在前端输入的,前端可以使用 vue.js,react 来做,也可以是桌面应用 electron,这里就直接使用原生来展示一下 爬虫就好了END

三、获取文章列表 代码编写
1

链接:htt。。。。。m/user/nuc

爬虫全教程:仔细 node.js 爬虫全过程...编辑经验2019-05-15

1.选择 leve1 也就是 三星的文章2.获取标题,文章链接

2

1. 增加 list 页面2. 对 经验文章页面分析,获取有用的元素// 获取文章列表 htmlfunction getArticleList() {superagent.get('htt。。。。。.com/user/nuc').end((err, res) => {if (err || !res.ok) {console.log('发生错误')} else {save(getHtml(res.text))}});}// 获取目标信息function getHtml(html) {const $ = cheerio.load(html)let list = []$('.exp-item').find('.f-titl').each((index, v) => {let article = {title: $(v).find('.f14').text(),src: $(v).find('.f14').attr('href'),level: $(v).find('.star-leve').attr('class')}list.push(article)})return list}END

注意事项
1

解构分析,登录根据不同的目标网站具体分析

2

代码没有完整,具体的需要自己去实现

推荐信息