
爬虫
文章平均质量分 82
BRYTLEVSON
这个作者很懒,什么都没留下…
展开
-
python爬虫将数据写入csv以及LSTM序列预测
python爬虫并且将数据写入csv写入csv文件的方法有很多中,下面代码用到的是文件操作方式。还有一种参考另一篇文章中的代码,pandas写入csvpandas写入csvimport requestsfrom bs4 import BeautifulSoupimport jsonimport csvdef get_city_aqi(pinyin): url = 'http://www.pm25.in/' + pinyin r = requests.get(url, ti原创 2020-06-30 09:49:51 · 9753 阅读 · 3 评论 -
爬虫过程中解决html乱码和获取的文本乱码问题
爬中过程中解决html乱码和获取的文本乱码问题response1 = requests.get(url=detail_url, headers=headers)responseText1 = response1.text获取的html中有乱码,xpath解析出来的文本当然也有乱码。解决办法:responseText1 = response1.text.encode(‘iso-8859-1’)utf-8也不行,用iso-8859-1# coding=utf-8import requestsf原创 2020-06-30 09:44:55 · 5909 阅读 · 0 评论 -
爬小说解决乱码问题 附源码
爬小说解决乱码问题:今天给朋友爬了一本小说: 虽然没有什么反爬,但是爬取到的内容一直是乱码。解决方法: 对获取到的文本编码,不能是‘gbk’ 也不能是’utf-8’response = requests.get(url, headers).text.encode(‘iso-8859-1’)源代码:import requestsfrom lxml import etreeimp...原创 2020-01-17 17:06:26 · 3919 阅读 · 2 评论 -
(python简单的架构思想)爬虫scrapy框架中的spider的底层是怎么实现的
scrapy作为爬虫比较成熟框架,现在用的是最多的爬虫框架,当然,除了自己开发的框架;crapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader...原创 2019-10-03 16:54:25 · 468 阅读 · 0 评论 -
selenium被反爬了怎么办?
在最近的业务需求中发现淘宝,美团吗,京东各大网站已经对selenium进行了反爬;推测,服务器端因该是判断一些特殊的字段和方法来识别爬虫,毕竟selenium下的chromedriver 与真实的chrome所在的环境和配置等是有差异的。为了完成项目需求,我尝试了一些简单的方法;方法一:发送请求的时候携带cookie,采用requests的Session状态保持,事实证明这种方法简单有效,...原创 2019-09-28 09:14:14 · 5308 阅读 · 0 评论