
爬虫基础
Li_318
这个作者很懒,什么都没留下…
展开
-
Scrapy安装步骤
花了半天时间安装Scrapy,踩了不少坑。包括:有人推荐安装VS,没有尝试(这东西大的,而且难卸载)有人推荐安装Anaconda安装,结果Anaconda目前只支持Python3.7,安装后直接把Python环境改成3.7。具体步骤:1.安装wheel,命令行输入 pip install wheel2.下载Twisted, 找到合适的版本。3.安装Twisted,进入其下载目录,执行pip install Twisted-20.3.0-cp38-cp38-win_amd64.whl.4原创 2020-06-26 10:53:37 · 414 阅读 · 0 评论 -
Python爬虫模拟浏览器示例
Python简单爬虫示例抓取 https://read.douban.com/provider/all 网页中的所有出版社的名称。网页如图:import reimport urllib.requestfrom urllib.request import urlopen, Requestpattern = '<div class="name">(.*?)</div>' # 输出的东西在()之中headers = {'User-Agent':'Mozilla/5.0 (原创 2020-06-08 21:34:34 · 491 阅读 · 0 评论 -
正则表达式匹配多行HTML
爬虫中正则表达式匹配多行HTML在利用Python抓取优快云博客时,需要利用正则表达式匹配多行HTML,HTML如下:使用\s*匹配换行,div与class之间也需要使用通用字符正则如下:<div.?class="title">\s*<h2>\s*<a.?href="(.*?)"...原创 2020-06-18 16:51:21 · 2120 阅读 · 1 评论 -
Python爬虫服务器代理
从新浪新闻中提取网页的URL,抓取至本地import urllib.requestimport urllib.errorimport redata = urllib.request.urlopen("https://news.sina.com.cn").read()data2 = data.decode("utf-8", "ignore")pat = 'href="(https://news.sina.com.cn.*?)"'allUrl = re.compile(pat).findall(d原创 2020-06-18 11:31:52 · 317 阅读 · 0 评论 -
Python爬取腾讯视频评论
通过简单的爬虫,爬取腾讯视频中的评论进入腾讯视频首页,随机点进一个视频,在视频页复制一个评论,查看网页源码,ctrl + f 查找该评论,发现并没有该评论。打开Fiddler进行抓包分析,刷新当前页面,找到相应的json文件,如下图:复制该链接的URL,在浏览器中打开,可以看到具体的文本内容,可通过正则表达式提取评论。该页面只显示了一部分评论,我们点击查看更多评论,在Fiddler中找到更多评论的URL,然后对其进行分析:我们可以观察链接只有一串数字不同,确定下一页评论的数字就可以获取更多的评论原创 2020-06-23 18:34:13 · 956 阅读 · 1 评论