本文记录了关于知乎用户信息的模块化抓取,使用到了Scrapy
这个开源项目,对其不熟悉的同学建议提前了解
知乎是现在十分活跃的社区,上面有关于人生、智慧、职业、技术等等的一系列的高质量的问答和专栏文章,虽然总是有有一些负面,片面的观点,但是不得不承认这是一个积极的、开放的社区
而作为学习者,需要做的总是抱着开放的心态,去其糟粕而取之精华,知乎虽是虚拟,但更像现实。
起初我的思路是先使用Scrapy
模拟登录上知乎,获得server
分配的cookie
,借鉴了Github
上这个项目fuck-login,它的源码使用的requests
模拟登陆知乎
requests session
在第一次登陆成功后,获得cookie
设置之后,requests session
可以帮助我们管理cookie,这减少了很多的底层劳动。在下次爬取可以使用session
来进行get/post
请求
当然你也可以使用浏览器先登陆上知乎,直接将cookie
持久化到本地,之后再在请求的头中带上cookie
原理
模拟登陆
要将这个项目集成到Scrapy
当中,需要使用Scrapy
的Request
重写下,实现模拟登录
要想登陆上知乎,需要在请求头中修改User-Agent
,并向login
页面POST
一些数据,注意这里重写了需要是用账号为手机号登陆,至于email
登陆可以借鉴原项目
不知道要带哪些东西就需要使用chrome开发者工具
先看下正常请求会带哪些东西,之后再COSPLAY
,而fuck-login就帮助我们做好了这些事情
_xsrf
是藏在登陆页面中的一串code
,所以在请求到首页,需要在callback
函数中对这个值进行提取phone_num
,password
就不用多说了,就是我们的登录名和密码captcha
,这是验证码,我们需要在登录页面输入的验证码
对于验证码的操作,也用很多种方式,有编码实现,比如tesseract-ocr (google开源) 不推荐,也有在线打码的平台,准确率尚可,成本较低,比如云打码
,还有其他人工打码,准确率最高,但是成本也是最高
这里遵循fuck-login
的做法,将登陆页面的验证码图片链接下载到本地,直接手动输入
源码如下:
信息提取
思路
Scrapy
获得了cookie
就可以登陆上知乎了,剩下的就是爬虫逻辑和信息的提取具体实现了
具体的逻辑是从Aljun那里获得的灵感,首先从一个大V开始(比如我,哈哈哈~) 获得所以其所关注的人,之后再获得这些人的信息将一些小号给过滤掉并录入数据库,之后在从其关注的人再获得其所关注的人,再获得信息录入数据库,就这样不间断的获取下去,而Scrapy
自身就遵循了深度优先的算法
观察下知乎的页面的请求流程可以发现知乎用户模块前后端是分离的,知乎后端的api
看起来也和规范,前端用ajax
到后端的API
去拿数据,模板渲染等工作交给了react
由于每刷新一次页面都需要发起Ajax
请求到后端去拿数据(为了保证数据的实时性),我们可以用开发者工具
调试页面,刷新一次将http
请求拿出来看下所有请求的URL,没有被缓存的请求都观察一番就教容易找出了Ajax
请求的接口
首先我们先设计数据库,这里使用MySQL
,我们可以根据感兴趣的可以得到的用户信息数据来设计我们的数据库,知乎提供了一个API接口来获得数据(先看看,我没有用到这个接口)
知乎开放的可以获取一个用户的具体信息的APIhttps://www.zhihu.com/api/v4/members/zhu-xiao-fei-47-24
,其中url中编码一些查询参数,就可以获得用户对应的信息
向这个接口请求发起一个GET
请求,就可以获得后台发送来的JSON
数据,这个信息是比较完善的,当我们知道可以获取哪些信息,找出自己关注的信息,就可以设计我们的数据库了,
这里需要注意的是,显然这个数据太庞大了,我们应该根据我们的需求编码不同的参数进去从而获得我们想要的数据,从而减少请求的JSON
数据的大小,节省带宽
如我们设计的Item
是以下结构(和mysql
中的数据表的列相互对应)
而我想获得这样的JSON
数据:
可以编码这样的请求进去
同理
知乎后台开放了获取一个用户关注者的API
https://www.zhihu.com/api/v4/members/zhu-xiao-fei-47-24/followees
,显然这个接口和用户相关如zhu-xiao-fei-47-24
,这是用户的一个属性url_token
,我们可以利用用户的url_token
来拼接出获得其关注者的url
由于查询的HTTP Method
是Get
,查询的参数是编码到url
中,我们也可以在url
中encode
一些请求的参数进去,来获得对应的数据,如
向这个请求发起一个GET
请求,就可以获得后台发送来的Json
数据,截取部分实例如下:
可以看到,在这个API里也可以返回关注用户的信息,也就是每一个data
字段里面的信息。这就是我们要的接口了!
我们可以根据我们的需求构造出URL
去获取我们想要的对应的数据。这个接口可以加三个参数
第一个include
就是我们可以请求到的用户的信息,第二个offset
是偏移量表征当前返回的第一个记录相对第一个following person
的数量,第三个limit
是返回限制数量,后面两个貌似起不到控制作用,所以可以无视,但是Spider
对于一个没有提取过following person
的时候,需要将offset
设置为0。
而第一个参数include
就是关注人的信息,我们可以将用户的属性如感谢数使用thanked_Count%2C
拼接起来:所以根据上面的需求,我们可以这么编码
|
|
请求这个接口,就可以获得我们数据库所需要的信息,并且可以不传输大量的数据,如下:
注意
在我们获取我们想要的数据的时候,我们的爬虫应该遵守一个原则就是:
尽可能减少我们的HTTP次数
在我们调整请求的URL
之后,相当于一个HTTP
请求,就可以获得20
个item
,而不是一个请求获得url_token
,每一个用户的信息再需要一次http request
获得,光这项的修改相当于提升了爬虫20
倍的性能,当然说的有些夸张。但是,爬虫的瓶颈逐渐不是信息的获取,可能性能会损耗在在我们的数据库的写入
实现
此时,即可在模拟登陆的基础上,完善我们的spider
,主要增加parse
这个实例方法
数据入库
获得到数据,即可将item
的信息就可以插入到MySQL
中,可以添加一个pipeline
完整的item
:
在pipline
的handle_error
(异常处理处)函数内打上断点,使用DEBUG
调试程序,观察到有数据入库即可
然而运行我们的project
,没抓到几百个用户数据,就会出现http 429
甚至http 403
的情况
http 429解决办法http 429
意思请求的速率太快,显然知乎后台开放的API
会做一些调用限制,比如对IP
、调用的用户等。
Scrapy
目前我没有想到行知有效的方式,我认为最为方便的就是设置下载延时,在setting.py
文件中设置DOWNLOAD_DELAY
这个变量
并随机切换代理和User-Agent
,编写Scrapy
的middleware
,如下:
在setting
中设置使用上编写好的下载中间件
至此我们的爬虫大部分已经完成了。再次运行我们的爬虫,当爬数据到一定数量(也没多少),开始报http 403
,拷贝对应的请求url
到浏览器中,发现需要重新填写验证码。没一会,知乎便对我的id
进行了限制,手机客户端也无法正常浏览
我猜测,知乎可能根据cookie
对触发请求阈值的用户识别后禁止…所以需要在setting.py
中设置COOKIES_ENABLES=False
使用Oauth匿名爬取
前几天看到静谧的做法
其根本就不要模拟登陆,但是为了可以访问到信息,需要探测出Oauth
的值加入到header
中
这个Oauth
相当一个令牌,我对其目前还不太了解,先不做阐述。
需要注意的是,我们在上面的ProxyMiddleware
中重写了header
,所以需要在ProxyMiddleware
里面加上这个header
于是乎,我们只需要关注优质、稳定的代理,设置好下载延时,就可以进行爬取了
当我们以匿名的形式,也就没有之前模拟登陆的许多限制,但是也是需要注意设置延时和代理、随机User-Agent
。
在单机设置为DOWNLOAD_DELAY = 0.4
,设置两个代理的情况下,每小时大概能抓到2W+
的用户数据,以这种形式我们的爬虫的速率已经算是比较高了。