
爬虫-python
亲亲小朱儿
这个作者很懒,什么都没留下…
展开
-
第一个爬虫-知乎用户关系之登录
这是第一个爬虫,所以由很多地方还需要改进,暂时先总结一下自己的小心得。登录因为想把自己的账号作为一个seed,所以session保持登录cookies,顺便练习一下验证码。 1.使用chorme F12 查看networks, 输入账户 点击登录,查看发送地址是什么,发现手机号是发送的https://www.zhihu.com/login/phone_num,email 则是 https://w原创 2017-11-22 15:46:42 · 1279 阅读 · 0 评论 -
爬虫-知乎用户关系之关注
首先进行分类 主要分为 main (函数主入口), urlManger(URL管理), urlParse(URL解析),urlOUT(最后的输出结果格式)注意的几个坑 关注了和关注者的列表 不能简单从html标签里获取,否则永远只是每个用户往下扒的三个数据而已 从主页点击关注了,查看networks,发现get了一个非常复杂的链接,我们应该使用这个链接,并且get该链接返回的json数据原创 2017-11-22 16:01:40 · 1029 阅读 · 0 评论 -
scrapy-爬虫学习笔记
1.安装scrapypip install -i 源 scrapy2.手动创建scarpy项目scrapy startproject 项目名称3.scrapy genspider jobbole blog.jobbole.com(使用自带模板)4.调试修改setting文件中obey robots为flase新建py文件在命令窗口中输入5.提取内容(有多种方法)xpath使用路径表达式在xml和h...原创 2018-07-15 12:09:10 · 264 阅读 · 0 评论 -
scrapy爬虫-学习笔记之数据处理篇
1.items类的应用在item类中定义数据字典2.在pipline(拦截item,并将item数据保存到数据库中)中定义图片下载并且在setting文件中修改配置3.连接mysql 下载mysqlclient...原创 2018-07-15 19:51:51 · 900 阅读 · 0 评论