
python爬虫
lulin1991
这个作者很懒,什么都没留下…
展开
-
爬虫学习第四部分
本次进行数据爬取,爬取腾讯新闻的热点数据了解ajax加载 通过chrome的开发者工具,监控网络请求,并分析 用selenium完成爬虫用selenium爬取https://news.qq.com/的热点精选每条新闻的结构一致,具体代码如下:import timefrom selenium import webdriverfrom bs4 import Beaut...原创 2020-04-28 09:00:52 · 232 阅读 · 0 评论 -
爬虫学习第三部分
本次学习内容session和cookie,ip代理知识,selenium的使用,拔高:实现丁香园的模拟登录爬取留言板。挑战项目:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。 丁香园论坛:http://www.dxy.cn/bbs/thread/626626#626626。以下实现selenium模拟登录import requests, json, re, ran...原创 2020-04-25 23:48:52 · 329 阅读 · 0 评论 -
爬虫学习第二部分
本次学习内容bs4、xpath和正则表达式目录1.xpath学习1.1知识要点:Xpath常用的路径表达式谓语(Predicates)通配符组合路径XPath 运算符1.2使用lxml解析1.3 实战:爬取丁香园-用户名和回复内容 1.xpath学习 学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的...原创 2020-04-23 23:26:55 · 934 阅读 · 0 评论 -
爬虫学习第一部分
第一部分主要学习内容html等有关知识,api使用,request-get使用 拔高部分:js之前做过一些简单爬虫,对request-get的使用比较熟悉。以下代码是之前爬取链家二手房数据,较为简单,以武汉市为例,结果保存在txt中。import requests from bs4 import BeautifulSoup def getHTMLText(url): ...原创 2020-04-21 23:50:34 · 252 阅读 · 0 评论