
爬虫
wxl1999
这个作者很懒,什么都没留下…
展开
-
爬虫学习3.1 使用selenium模拟登陆163邮箱
任务描述安装selenium并学习安装selenium并学习。使用selenium模拟登陆163邮箱。163邮箱直通点:https://mail.163.com/ 。参考资料:https://blog.youkuaiyun.com/weixin_42937385/article/details/88150379话不多说,先上代码:import timefrom selenium impo...原创 2019-04-10 23:30:03 · 698 阅读 · 0 评论 -
爬虫学习记录
爬虫学习主要学习的资料是嵩天老师的Python网络爬虫与信息提取课程这里先附上课程学习时一起练习的几段代码:import requestsfrom bs4 import BeautifulSoupimport bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r....原创 2019-04-07 21:57:13 · 200 阅读 · 1 评论 -
爬虫学习3.2 抓取西刺代理,并构建自己的代理池
任务描述学习什么是IP,为什么会出现IP被封,如何应对IP被封的问题。抓取西刺代理,并构建自己的代理池。西刺直通点:https://www.xicidaili.com/ 。参考资料:https://blog.youkuaiyun.com/weixin_43720396/article/details/88218204如何应对IP被封的问题伪造User-Agent在请求头中把User-Ag...原创 2019-04-11 19:12:02 · 237 阅读 · 0 评论 -
爬虫学习2.1 使用beautifulsoup提取丁香园论坛的回复内容
任务描述学习beautifulsoup,并使用beautifulsoup提取内容。使用beautifulsoup提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。参考资料:https://blog.youkuaiyun.com/wwq114/article/details/88085875话不多说,先上代码:def...原创 2019-04-08 17:06:30 · 281 阅读 · 0 评论 -
爬虫学习2.2 使用xpath提取丁香园论坛的回复内容
任务描述学习xpath,使用lxml+xpath提取内容。使用xpath提取丁香园论坛的回复内容。丁香园直通点:http://www.dxy.cn/bbs/thread/626626#626626 。参考资料:https://blog.youkuaiyun.com/naonao77/article/details/88129994话不多说,先上代码:def getHTMLText(url):...原创 2019-04-08 23:38:04 · 310 阅读 · 0 评论 -
爬虫学习Task7 实战大项目
任务描述实战大项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626 。话不多说,先上代码:def getHTMLText(url): try: user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x...原创 2019-04-12 22:29:27 · 258 阅读 · 0 评论