
爬虫
behrends
这个作者很懒,什么都没留下…
展开
-
网络爬虫 学习日志(二)
Task2(2天)2.1 学习beautifulsoup 学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取丁香园论坛的回复内容。 丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626。 参考资料:https://blog.youkuaiyun.com/wwq11...原创 2019-05-13 18:58:25 · 297 阅读 · 0 评论 -
网络爬虫 学习日志(四)
Task4(2天)**4.1 ** 实战大项目 实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626。 参考资料:https://blog.youkuaiyun.com/nao77/article/details/88316754 import re...原创 2019-05-19 21:28:49 · 256 阅读 · 0 评论 -
网络爬虫 学习日志(三)
3.1 安装selenium并学习 安装selenium并学习。 使用selenium模拟登陆163邮箱。 163邮箱直通点:https://mail.163.com/。 参考资料:https://blog.youkuaiyun.com/weixin_42937385/article/details/88150379 3.2 学习IP相关知识 学习什么是IP,为...原创 2019-05-15 22:23:54 · 211 阅读 · 0 评论 -
网络爬虫 学习日志(一)
任务: 学习get与post请求,尝试使用requests或者是urllib用get方法向https://www.baidu.com/发出一个请求,并将其返回结果输出。 如果是断开了网络,再发出申请,结果又是什么。了解申请返回的状态码。 了解什么是请求头,如何添加请求头。 学习什么是正则表达式并尝试一些正则表达式并进行匹配。 然后结合requests、...原创 2019-05-11 13:50:32 · 1040 阅读 · 0 评论 -
爬虫练习 用beautifulsoup 爬取猫眼top100
import requestsfrom bs4 import BeautifulSoup as bsheaders={'User-Agent':'Mozilla/5.0 (Windows NT 6.1;Win64;x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/55.0.2883.87 Safari/537.36'}for i in r...原创 2019-09-21 11:25:42 · 650 阅读 · 0 评论 -
爬虫学习 文件储存
1.TXT文本储存1.写法:with open('name.text','a',encoding='utf-8') as file: file.write(str) 2.常用的打开方式w 以写入的方式打开一个文件。如果文件已存在则将其覆盖,不存在则创建新文件 w+ 以读写的方式打开一个文件,如果该文件已存在,则将其覆盖。如果文件不...原创 2019-09-21 17:13:39 · 145 阅读 · 0 评论