对于QQ空间的数据一直来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便开始动手!
我们这里使用账号密码登录,为了方便使用selenium自动化神器(关于selenium的用法可以参考,这里不做过多阐述)
QQ账号,QQ密码存储在文件中,然后用configparser将其读取出来
configparser是一个读取配置文件的库,这里读取的格式为get([配置文件中括号里的值],‘相对应的key值’)
有些盆友用selenium的时候,可能会发现有些元素定位不到,这是因为有些网页套了一个iFrame
研究好久后发现在QQ空间主页中权限设置页面中,点击仅限QQ好友,会有下面这样的页面出来
与之前类似,进入好友的说说主页后发现也有这样一个js文件将所有说说以json形式显示出来
类似的,写了获取说说的代码(经过测试,参数中的num最好写20,否则会出现未知的结果。。。)
数据抓取速度贼快,,20分钟抓取了我所有好友(282+)60000+说说。。
请输入你的在线分享代码
额 本文暂时没人评论 来添加一个吧
发表评论