
python爬虫
文章平均质量分 58
python爬虫
向宇it
* QQ交流群:826534924
展开
-
多线程爬虫
1.使用 from multiprocessing.dummy import Pool # 定义几个线程 pool = Pool(4) results = pool.map(爬取函数,网址url列表) 2.例子 from multiprocessing.dummy import Pool import requests def gethtml(url): html = requests.g...原创 2019-04-10 12:28:28 · 152 阅读 · 0 评论 -
xpath学习笔记
1.导入 from lxml import etree 2.将html转换为可被xpath操作的对象 selector = etree.HTML(html内容) selector.xpath(“xpath符号”)原创 2019-04-10 12:27:44 · 324 阅读 · 0 评论 -
requests学习笔记
获取网页全部的html request.get(url).text 需要更改编码格式 request.get(url).content 不需要更改编码格式 伪装成浏览器访问 request.get(url, headers = User_Agent的内容) 更改编码格式 r = requests.get(url) r.encoding = r.appa...原创 2019-04-10 12:24:44 · 197 阅读 · 0 评论 -
win下安装scrapyd spiderkeeper
“”" TODO 部署爬虫时cmd要一直执行着scrapyd,否则会导致浏览器无法访问和部署时网络拒绝 “”" 1.安装 打开cmd # pip install scrapyd # pip install scrapyd-client # pip install scrapy-redis # pip install SpiderKeeper 启动scrapyd 重开一个cmd # scrapyd...原创 2019-04-02 23:15:34 · 432 阅读 · 3 评论 -
python re 正则表达式库的使用
. 匹配任何字符,除了\n,占位符 匹配前一个字符0次或无限次 匹配前一个字符1次或无限次 ? 匹配前一个字符0次或1次 .* 贪心算法 .*? 非贪心算法 () 括号内的数据作为结果返回 (\d+) 匹配纯数字 [] 对单个字符给...原创 2019-04-02 23:14:02 · 367 阅读 · 0 评论 -
bs4 beautifulsoup学习笔记
“”" TODO # 用requests库获取网页html r = requests.get(“https://python123.io/ws/demo.html”) demo = r.text “”" 对demo进行html的解析 soup =BeautifulSoup(demo, “html.parser”) 格式化html打印出来 print(print(soup.prettify(...原创 2019-04-02 23:13:05 · 334 阅读 · 0 评论 -
scrapy学习笔记---初识
生成一个scrapy目录 (1)scrapy startproject 目录名 在当前目录创建scrapy项目 (2)cd 目录名 移动到创建的目录下 (3)scrapy genspider demo 网站域名 生成一个demo.py文件,产生spiders爬虫 (4)scrapy crawl demo ...原创 2019-03-31 14:17:01 · 179 阅读 · 0 评论 -
win 下scrapy的安装
这应该不算原创了,看了很多别人安装scrapy的方法,但是他们的都比较散乱,我现在来整合一下 先要去安装wheel 1.到下面这个网址去下载Twisted已经编译好的wheel文件安装,安装好后再使用pip安装Scrapy。 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 注意:根据自己的python版本下载对应版本。不然会报错 如:我的是64位python...翻译 2019-03-30 10:55:43 · 209 阅读 · 0 评论