
爬虫
山大王110
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python3.5+requests 爬取网站遇到中文乱码怎么办?ä½è ï¼å¾®è½¯äºæ´²ç ç©¶é¢
import requestsfrom bs4 import BeautifulSoupurl = 'http://quote.eastmoney.com/stocklist.html'user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'headers = {'User-Agent': user_agent}req...转载 2018-07-26 16:00:19 · 42640 阅读 · 0 评论 -
Python中Filtered offsite request to 'www.sohu.com':报错的解决方法
1.查到的原因为:allow domain中的地址和request的地址不一致。2.解决方案:将allow domain中的地址修改成和request的地址一致。或者yield scrapy.Request中添加dont_filter = True...原创 2018-08-10 17:14:57 · 1087 阅读 · 0 评论 -
Python用Scrapy爬虫报错UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' ,解决方案
错误:UnicodeEncodeError: 'gbk' codec can't encode character '\u2022' in position 7: illegal multibyte sequence解决:import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encodin...转载 2018-08-10 17:20:29 · 13518 阅读 · 4 评论 -
将爬取的数据传入到pipeline中,需要对settings.py进行修改
爬虫主代码xx.py完成之后,在Terminal端,运行scrapy crawl xx.py1.如果运行结果正确,这时候,我们需要将爬取的数据通过某种途径(数据库、.txt存入本地或者其他)存储下来,此时pipeline.py文件用来决定到此是以哪种方式存储下来。此时,首先编写pipeline.py文件,比如我希望将我爬取的信息存入本地,此时pipeline.py文件如下:impor...原创 2018-08-10 17:40:42 · 907 阅读 · 0 评论 -
爬虫过程中遇到的防爬措施
1.用scrapy爬取赶集网租房信息时,由于访问频繁,需要通过验证码才能访问页面;解决方案:网站通过用户的Cookie信息对用户进行识别与分析,所以要防止目标网站识别我们的会话信息。在Scrapy中,我们可以在爬虫项目的setting.py文件中进行设置将setting.py中的下面两行代码里的COOKIES_ENABLED = False 的注释去掉即可。2.爬虫过程...转载 2018-08-27 14:35:28 · 2836 阅读 · 0 评论 -
将豆瓣排名前250爬取数据通过sqlite3存入数据库
#爬取豆瓣top250电影,并保存到数据库import requestsfrom bs4 import BeautifulSoupimport sqlite3def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.1...原创 2018-08-21 14:02:50 · 1083 阅读 · 0 评论 -
scrapy 中遇到的问题
2018-08-28 16:09:32 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET http://bj.ganji.com/fang1/3558462755x.htm?adtype=3> from <GET http://jing.58.com/adJump?adType...原创 2018-08-28 17:27:59 · 3813 阅读 · 0 评论 -
爬虫数据保存为csv文件时,表格中间隔有空行问题
问题描述:将爬取的数据保存的csv文件,遇到几个问题,原代码如下:with open('F:\\Pythontest1\\douban.csv','w') as f: writer = csv.writer(f,dialect='excel') writer.writerow(['rank','title','rate','autor','member','quote']...原创 2018-08-21 16:23:48 · 3349 阅读 · 0 评论 -
AttributeError: module 'pymongo' has no attribute 'MongoClient'
查了很多内容,发现是脚本命名的问题,因为为了学习pymongo所以把脚本命名为pymongo.py,修改脚本名为test.py重新运行,成功。原创 2018-09-03 17:10:15 · 3559 阅读 · 3 评论