
python数据获取
文章平均质量分 91
听风闻香
这个作者很懒,什么都没留下…
展开
-
python数据爬虫——如何爬取二级页面(三)
前面两篇文章讲了单页面如何爬取,那么我们来试试如何爬取二级页面。在爬取页面的时候,需要有个良好的习惯,提前对爬取的页面和爬取思路进行一个分析。目的:爬取携程无忧数据分析师的二级页面,获取每个岗位的要求。页面的构成:二级页面是点击一级页面跳转的。解决思路:1、在一级页面中获取二级页面的链接2、在二级二面中获取想要的数据。这里我们会用到BeautifulSoup。思路有了,那我们开始吧...原创 2019-04-04 14:58:17 · 17457 阅读 · 8 评论 -
python数据爬虫——数据分析师岗位基本信息爬取(一)
爬取网址:www.51job.com1.首先我们来分析需要爬取网站的情况在51job中输入:数据分析师2.把URL复制到一个text文本中,分析一下地址。随意的复制三页的地址,找到其中的规律。对比分析:URL前面都是一样的,在“.html”前的数字不一样,这个数字就是对应的页面。“?”后面的一大串都是格式,对URL地址并没有影响。于是我们只需要截取“?”前的URL3.这里使用的是谷...原创 2019-04-02 15:37:10 · 3284 阅读 · 3 评论 -
python的Twisted依赖库的安装方法和问题解决方式
在安装Twisted依赖库的时候遇到一些问题,为大家分享一下。版本:python 3.6系统:Windows 10一般我们安装时用pip install twisted遇到以下错误:根据错误提示,没有visual c++ 14.0 ,其实就是缺少Visual C++ 2015 Build Tools。提供两种解决方法解决方法1:打开链接下载安装程序: Microsoft Visu...原创 2019-04-09 09:11:48 · 2860 阅读 · 0 评论 -
python数据爬虫——对爬取的数据进行保存(二)
前一篇文章介绍了如何抓取岗位信息,这一篇为大家带来如何把抓取的数据进行一些简单的处理,以及保存。文章链接:https://blog.youkuaiyun.com/qq_31848185/article/details/88967352先回顾一下源代码,要是对代码有不清楚的地方可以去看一下上方链接的文章:import requestsfrom lxml import etreeimport time...原创 2019-04-03 10:51:29 · 7468 阅读 · 5 评论