
python爬虫
文章平均质量分 52
ConverseSuger
这个作者很懒,什么都没留下…
展开
-
python常见库的安装(填lxml库安装的坑)
lxml库: 如果使用: pip3 install lxml windows系统安装时10个最少8个会出错,因为lxml库是C语言实现的,即使安装了visual C++ 2015,还是会有新的错误出现。 这里使用下载lxml的whl文件进行安装。下载地址为:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,根据原创 2016-11-13 12:01:22 · 2237 阅读 · 0 评论 -
小规模爬取豆瓣所出现的问题
闲来无事想去爬爬豆瓣的动漫,然后定期爬取解决下剧荒的问题,发现豆瓣对爬虫的存在并不是很友好。 首先出现的就是验证码的问题,在获得全部的链接后准备逐个访问获取数据时明显感觉到爬取数据有所下降,300个左右的数据用了7分钟左右。其次在爬取300多个数据后,程序报错,返回了response,豆瓣服务器积极拒绝掉了,重新对网页检查了下发现网页的Cookie更换了,但是在更换Cookie后爬了同样的数原创 2016-11-10 18:14:03 · 666 阅读 · 0 评论 -
大规模数据爬取(BeautifulSoup)
工作流程图如下:# 使用MongoDB作为数据库进行数据储存。总体结构分为四层: 获取主界面所有大类的链接 spider1(url_links)构建抓取详情页信息的spider2(get_item_information)构建获得列表页内所有item链接的函数(get_item_links)采用多进程的方式整合所有函数,并进行数据爬取spider1:导入所需要的库(Be原创 2016-10-29 22:12:59 · 415 阅读 · 0 评论 -
涉及详情页的信息爬取
构建两个函数,Func A 用来抓取详情页的数据,例如标题,副标题,图片等,Func B 用来抓取列表页的链接,依次访问Func B函数所抓取的链接即可。from bs4 import BeautifulSoupimport requestsimport timedef get_info(page): urls=get_links_from(page) #调用获原创 2016-10-26 22:22:16 · 740 阅读 · 0 评论 -
未涉及详情页的信息爬取
所获取信息的url来自于列表页,而非详情页from bs4 import BeautifulSoupimport requestsimport timeimport pymongoclient=pymongo.MongoClient('localhost',27017) #引用MongoDBCeshi=client['Ceshi'] #原创 2016-10-24 15:04:12 · 204 阅读 · 0 评论 -
python简易爬虫制作
编译环境:pycharm 4.5.3python版本:3.5.1首先从pycharm库中下载并安装BeautifulSoup4,lxml,requests,time插件以KnewOne为例:from bs4 import BeautifulSoupimport requestsimport timeurl='https://knewone.com/things'原创 2016-10-22 16:47:19 · 520 阅读 · 0 评论