
python
文章平均质量分 62
Huangyong_csdn
哪里不会点哪里
展开
-
Scrapy 安装错误,Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual……
问题描述:pip install scrapy输入上面命令安装scrapy时报错: 经过百度答案,解决方案如下: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件,这里对应版本是只对应你安装的python的版本,比如我安装的是32位的python 3.6版本,那么找到对应的点击下载即可,如原创 2018-01-23 15:04:38 · 4338 阅读 · 2 评论 -
Python scrapy使用入门,爬取拉勾网上万条职位信息(上)
使用python实现爬虫的方式很多,典型的有urllib配合BeatifulSoup,代码也很简单,不过威力有限只适合入门尝鲜,想要真正收集大量有用数据拿来做数据分析就略感力不从心,这时不得不提scrapy了,一个专业的爬虫框架。看了网上很多的入门教程,很多都难以跑通,毕竟链接变化很快,如果不系统了解其原理,很难更正回来。所以本篇还是从一个成功的案例记录下,方便爱学习的你我他。 (一)首先要确定原创 2018-01-24 17:51:13 · 2613 阅读 · 1 评论 -
Python scrapy使用入门,爬取拉勾网上万条职位信息(下)
继续之前的笔记。上节实现了数据爬取和导出文件。这节学点干的,模拟浏览器请求,对付拉钩的反爬策略,爬取二级页面,获取到具体的职位,薪资等数据。我们上节爬取的是分类的内容,我们实际浏览网页也是点击分类进入二级页面看职位列表,上节爬取的链接,就是我们点击的那个链接,我们已拿到了: 现在我们点击Java进入二级页面,假如我们要获取如下信息: 使用cookie给爬虫做伪原创 2018-01-25 11:11:15 · 3677 阅读 · 7 评论 -
Python scrapy实践应用,爬取电影网站的影片资源并存入数据库
知识点 scrapy 分页爬取。 scrapy提取页面元素之xpath表达式语法 scrapy 配合pymysql保存爬取到的数据到mysql数据库 scrapy.Request(……)向回调方法传递额外数据 数据库存储前先查重 本文为前文:Python scrapy使用入门,爬取拉勾网上万条职位信息 基础之上的拓展实战,没有看过前文的可以先去看看。对于之原创 2018-01-26 00:25:08 · 7648 阅读 · 0 评论 -
xshell 连接virtualBox中的Linux服务器
不算什么技术,但是没遇到的人肯定头疼不已,我看了网络上大多数方案,近乎都不行。后来终于找到一个简单可行的。说简单是确实的很简单,仅配置virtualbox即可: 右键选择virtualbox里的Linux,我这里是以centos7为例子。 右键->设置->网络 连接方式选择 :网络地址转换(NAT) 然后点高级->端口转发, ...原创 2018-03-06 11:52:20 · 2140 阅读 · 1 评论 -
Scrapy爬虫Xpath编写规则梳理
进入浏览器的开发者模式(F12),选取需要获取的节点,如果我们想获取一个列表,例如: 在li节点上右键,copy->copy xpath即可获取当前节点的Xpath路径, 直接复制如下: /html/body/div[4]/div[1]/ul/li[1]这个不能直接使用,这个是获取了li节点第一个元素,爬虫里我们需要获取一个集合,用来for循环,所以在爬虫开头里需要修...原创 2018-09-12 13:54:18 · 1483 阅读 · 0 评论