
爬虫
听酒an
世界上有不绝的风景,我有不老的心情
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Scrapy简单入门整理+小案例
Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中...原创 2018-07-10 19:35:59 · 2340 阅读 · 5 评论 -
爬虫xpath的使用 xml
整理:XPath语法XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历<bookstore> <book> <title>Harry Potter</title> <author>J K. Rowling</author> ...原创 2018-07-07 13:08:15 · 400 阅读 · 0 评论 -
爬虫小案例 爬取百度贴吧杨幂图片 xpath 美丽汤
xpath版本import requestsfrom lxml import etreeimport osfrom hashlib import md5def get_html(url, headers): html = requests.get(url, headers) return html.textdef parse_html(html): content = et...原创 2018-07-15 17:06:31 · 2056 阅读 · 0 评论 -
爬虫小案例 爬取百度贴吧赵丽颖图片案例 xpath 美丽汤
美丽汤版本:import requestsfrom bs4 import BeautifulSoupimport osfrom hashlib import md5def get_html(url, headers): html = requests.get(url, headers) return html.textdef parse_html(html): ...原创 2018-07-15 17:09:21 · 550 阅读 · 0 评论 -
爬虫小案例 爬取笑话 xpath
import requestsfrom lxml import etree# 写入文件def write_file(art): with open("笑话.txt", "a+", encoding="utf-8") as f: f.write(art)# 解析html得到自己想要的内容def parse_html(html): content = etree.HT...原创 2018-07-21 08:50:30 · 619 阅读 · 0 评论