
爬虫
文章平均质量分 61
Watch_dou
一名算法工程师,欢迎交流,由于比较忙,来不及回复评论,有事可以私戳我
展开
-
R语言某一年各省各月份天气数据爬取
因为项目需要,在此,本人用R语言对某一年各省的省会各月份天气数据进行爬取。想爬取其他城市的数据也是大同小异。本次爬取的天气数据包括”日期”,”天气状况”,”气温”,”风力风向”四个指标原创 2017-07-25 11:58:25 · 4695 阅读 · 15 评论 -
58批量数据爬取
爬取58上100页的某商品分类信息,代码如下:from bs4 import BeautifulSoupimport requestsimport timeimport lxmldef get_links_from(who_sells,page=1): urls = [] list_view = 'http://xa.58.com/pbdn/'+str(who_sells)+'原创 2017-08-17 13:57:22 · 1669 阅读 · 0 评论 -
爬取58上的大量二手数据并保存在MongoDB中
爬取58二手分类商品的标题、价格、浏览情况等数据。from bs4 import BeautifulSoupimport requestsimport timeimport pymongoimport refrom numpy import *#####获取二手标签链接start_url = 'http://cs.58.com/sale.shtml'def get_chanel_url原创 2017-08-20 23:59:22 · 746 阅读 · 0 评论 -
多页爬取数据
BeautifulSoup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,BeautifulSoup就不能自动识别编码方式。这时,你只需要说明一下原始编码方式就ok。参数用lxml就可以,需要另行安装并载入。BeautifulSoup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解原创 2017-07-30 12:33:40 · 1481 阅读 · 0 评论 -
Python网络数据采集——BeautifulSoup
当米开朗基罗被问及如何完成《大卫》这样匠心独具的雕刻作品时,他有一段著名的回答:“很简单,你只要用锤子把石头上不像大卫的地方敲掉就行了。” 虽然网络数据采集和大理石雕刻大相径庭,但是当我们从复杂的网页中寻觅信息时,也必须持有类似的态度。在我们找到目标信息之前,有很多技巧可以帮我们“敲掉”网页上那些不需要的信息。这一章我们将介绍解析复杂的HTML 页面的方法,从中抽取出我们需要 的信息。1.Bea原创 2017-08-21 13:10:30 · 708 阅读 · 0 评论 -
Python网络数据采集——正则表达式
计算机科学里曾经有个笑话:“如果你有一个问题打算用正则表达式(regular expression,通常简写regex)来解决,那么就是两个问题了。” regex——你值得拥有!学正则表达式不一定只会用在爬虫,当然爬虫也未必会用到正则表达式(能找到捷径就不需要啊),学正则可以处理一些杂乱的文本,从杂乱的信息中找出些许规律性并批量过滤出自己想要的东东。可原创 2017-08-23 11:58:44 · 1103 阅读 · 0 评论 -
python爬虫工具安装
re与urllibre与urllib模块一般python自带requests模块安装pip install requestsselenium有些网站是js渲染的,需要借助浏览器加载,在此需要安装seleniumpip install seleniumchromedrive还需要安装chrome浏览器以及浏览器对应的chromedrive 安装成功测试:...原创 2018-06-09 18:22:40 · 1316 阅读 · 0 评论 -
python之selenium的坑总结
最近锁王唐唐很厉害啊,甚是迷恋,鄙人观望了小呆的微博已经两天了,路转粉,绝对铁粉,闲来无事,我要开始分析wuli唐唐了。爬取了小呆的新浪微博,赞帖,帖子内容,发帖时间,转发数,评论数,点赞数。其中,不乏入坑无数,然而,都一一克服了,不得不说,这就是小呆的力量。模拟人类自动登录记住cookie捕获当前所有窗口在这里,不得不说,新浪微博的爬取并非易事。 首先,进入”https://w...原创 2018-06-10 20:23:41 · 7276 阅读 · 2 评论