- 博客(8)
- 收藏
- 关注
原创 VirtualBox安装CentOS-6.5
在使用VirtualBox安装CentOS时程序报错:FATAL:No bootable medium found ! System halted. 解决方案: 明细那里一定要把自己的镜像文件分配到当前创建的虚拟机上
2016-12-18 22:19:05
275
原创 python常见库的安装(填lxml库安装的坑)
lxml库: 如果使用: pip3 install lxml windows系统安装时10个最少8个会出错,因为lxml库是C语言实现的,即使安装了visual C++ 2015,还是会有新的错误出现。 这里使用下载lxml的whl文件进行安装。下载地址为:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,根据
2016-11-13 12:01:22
2234
原创 小规模爬取豆瓣所出现的问题
闲来无事想去爬爬豆瓣的动漫,然后定期爬取解决下剧荒的问题,发现豆瓣对爬虫的存在并不是很友好。 首先出现的就是验证码的问题,在获得全部的链接后准备逐个访问获取数据时明显感觉到爬取数据有所下降,300个左右的数据用了7分钟左右。其次在爬取300多个数据后,程序报错,返回了response,豆瓣服务器积极拒绝掉了,重新对网页检查了下发现网页的Cookie更换了,但是在更换Cookie后爬了同样的数
2016-11-10 18:14:03
657
原创 大规模数据爬取(BeautifulSoup)
工作流程图如下:# 使用MongoDB作为数据库进行数据储存。总体结构分为四层: 获取主界面所有大类的链接 spider1(url_links)构建抓取详情页信息的spider2(get_item_information)构建获得列表页内所有item链接的函数(get_item_links)采用多进程的方式整合所有函数,并进行数据爬取spider1:导入所需要的库(Be
2016-10-29 22:12:59
410
原创 涉及详情页的信息爬取
构建两个函数,Func A 用来抓取详情页的数据,例如标题,副标题,图片等,Func B 用来抓取列表页的链接,依次访问Func B函数所抓取的链接即可。from bs4 import BeautifulSoupimport requestsimport timedef get_info(page): urls=get_links_from(page) #调用获
2016-10-26 22:22:16
735
原创 未涉及详情页的信息爬取
所获取信息的url来自于列表页,而非详情页from bs4 import BeautifulSoupimport requestsimport timeimport pymongoclient=pymongo.MongoClient('localhost',27017) #引用MongoDBCeshi=client['Ceshi'] #
2016-10-24 15:04:12
202
原创 python简易爬虫制作
编译环境:pycharm 4.5.3python版本:3.5.1首先从pycharm库中下载并安装BeautifulSoup4,lxml,requests,time插件以KnewOne为例:from bs4 import BeautifulSoupimport requestsimport timeurl='https://knewone.com/things'
2016-10-22 16:47:19
517
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人