爬虫
Eric_ariel
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用requests与lxml爬取豆瓣正在上映电影
利用requests库与lxml解析,获取豆瓣电影展示的所有正在上映的电影。没有进行进一步详情查看。因此比较简单。 所有单个正在上映电影信息以字典存储,并整合在一张列表里。整理后格式如下: [ { 'title': '反贪风暴4', 'score': '6.3', 'duration': '100分钟', 'actors': ...原创 2019-04-10 20:28:51 · 632 阅读 · 0 评论 -
使用requests库和lxml解析爬取电影天堂电影信息
使用requests库获取电影天堂电影信息,将所有链接保存下来后可以使用迅雷批量下载。快速获得最新最全电影资源! 站点分析 以电影天堂国内电影为例 http://www.ygdy8.net/html/gndy/china/index.html 分析其目录内每一个电影信息存在table中,首先我们要获取每一个电影的详情地址 所有电影信息的详情链接获取 通过request,获取页面源码,xpath取...原创 2019-04-11 09:55:20 · 1888 阅读 · 0 评论 -
实例带你快速入门XPath语法和lxml模块
XPath语法和lxml模块 什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 XPath开发工具 Chrome插件XPath Helper。 Firefox插件Try XPath。 XPath语法 选取节点: XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。...原创 2019-04-11 15:10:05 · 428 阅读 · 0 评论 -
用案例精讲带你快速入门BeautifulSoup4库
BeautifulSoup4库 和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 Beaut...原创 2019-04-11 15:12:33 · 420 阅读 · 0 评论 -
python爬虫:多线程爬取Endgame的豆瓣短评并生成词云图
本文由于爬取了短评,未处理数据,结果中存在部分剧透!!慎读! 结果展示 主要通过爬取复联4豆瓣短评中前500条好评与前500条差评(因为豆瓣限制,只能爬前500条),并生成词云图: 环境 开发环境: Anaconda for Win 10 使用库: import csv import threading import requests from lxml import etree from q...原创 2019-04-26 08:11:05 · 969 阅读 · 0 评论 -
使用queue队列容量不足程序会无限等待
Python的queue模块通过Queue函数构建队列时。可以为其设置最大容量,如果队列的大小达到了队列的上限,就会加锁,加入就会阻塞,直到队列的内容被消费掉。maxsize的值小于等于0,那么队列的尺寸就是无限制的。 from queue import Queue q = Queue(3) for i in range(5): q.put(i) #阻塞,不会进入下一步。 for i ...原创 2019-04-26 08:51:18 · 1814 阅读 · 0 评论
分享