
python爬虫
文章平均质量分 64
real_Rickys
走马观花,笑不世之豪杰。
弹抒坟典,悲难复之南山。
展开
-
python爬虫学习
爬数据,爬数据 这是在新的互联网时代必然的要求,搞定从爬虫到数据分析再到人工智能一整套体系已经似乎是每个程序员的必备知识了。于是乎,就先来学习下爬虫的应用 我学习的是中国大学MOOC上北理嵩天教授的视频课程,博客仅为记录为日后参考。一:requests中基本功能的了解 1.用anconda安装requests:conda install requests 2.在j...原创 2018-03-07 18:08:49 · 445 阅读 · 0 评论 -
scrapy的CrawlSpider和cookie
scrapy的CrawlSpider类 在默认的情况下,scrapy都是继承spider类来进行爬取,但是scrapy还有另一个更好用,更适合大网站的类:CrawlSpider。可以说到了爬虫后期学习对网站级的爬取就是必须要用crawlspider类了。 这个实例就是吧所有的中国慕课里的网站爬下来。url='https://www.icourse163.org/'步骤零 由...原创 2018-05-06 20:06:39 · 1534 阅读 · 0 评论 -
scrapy-splash初步学习
scrapy-splashdocker原创 2018-04-14 14:03:43 · 829 阅读 · 0 评论 -
scrapy的登陆学习——git
scrapy的登陆学习 目前极大多数网站的有用信息都是需要登陆获取的,这里先学习下git的普通登陆(学习他人),后续学习知乎的登陆(验证码的处理,学习他人)以及B站的登陆和视频的爬取(自我探索),一些网站的登陆和全网站资源爬取(学习他人+自我探索)。url = 'https://github.com/login'步骤:分析网站需要提交的内容找寻隐藏元素学习使用Form...原创 2018-04-15 16:34:21 · 380 阅读 · 0 评论 -
scrapy百度股票个股爬取
Scrapy的循序渐进的实现 之前有学习的scrapy对股票数据的爬取是一个浅显的实现,没有应用到反爬虫和item类型的实现。scarpy的强大需要不断的摸索,所以继续自主的实现scrapy的各种功能是十分必要的。 这里的实现学习没有对反爬虫机制,对动态页面的爬取以及多网站页面进行爬取,也没有使用item loader等一些高级用法,下一步学习scrapy-splash 由于爬虫的输...原创 2018-04-08 22:30:25 · 951 阅读 · 0 评论 -
股票信息爬取scrapy版
scrapy的粗略实现 在后续学习中才发现这个案例是非常不严谨和粗浅的,但是作为初步入门时的scrapy实现学习实例还是非常好的。特别是让我对scrapy的具体框架有了个大概的了解。 本实例用到的url如下url = "http://quote.eastmoney.com/stocklist.html"url = "https://gupiao.baidu.com/stock/"...原创 2018-03-26 16:55:37 · 875 阅读 · 0 评论 -
淘宝比价定向爬虫
淘宝比价定向爬虫目标:获取淘宝搜索页面信息,获得商品名称和价格 理解:淘宝搜索的接口,翻页的处理步骤:步骤一:提交商品搜索请求,循环获取页面 步骤二:对于每一个页面,提取商品名称和价格信息 步骤三:将信息输出到屏幕上import requestsimport re#可以看到页面里面是脚本不能用bsdef getHTMLText(url): try:...原创 2018-03-21 17:03:06 · 1325 阅读 · 0 评论 -
股票数据定向爬虫
股票数据定向爬虫目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中技术路线:requests-bs4-re用到的url: 新浪股票:http://finance.sina.com.cn/stock/ 百度股票:https://gupiao.baidu.com/stock/ 东方财富网:http://www.eastmoney.com/步骤:...原创 2018-03-21 17:00:10 · 431 阅读 · 0 评论 -
scrapy之初见
scrapy之初见 scrapy号称是当今最为强大的爬虫框架,是所有有兴趣接触爬虫学习同学绕不开的强大神器5 + 2模块 scrapy爬虫组成一共有7个部分Engine:不需要用户修改控制所有模块之间的数据流 根据条件触发时间 Downloader:不需要用户修改根据用户请求下载网页 Scheduler:不需要用户修改对所有爬取请求进...原创 2018-03-24 16:42:31 · 349 阅读 · 0 评论 -
定向爬虫实例之中国大学排名定向爬虫
中国大学排名定向爬虫 定向爬虫指的是只针对所给的url的页面爬取,不扩展爬取的爬虫。给的例子的网页采用静态页面的方式,是非常好的学习例子。 本次实例的要求: 输入:大学排名url 输出:大学排名信息的屏幕输出(排名,大学名称,总分)url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html"import...原创 2018-03-19 16:58:56 · 532 阅读 · 0 评论 -
python爬虫学习之re正则表达式
正则表达式包re regular expression = regex = re 正则表达式是通用的字符串表达框架,是判断字符串的特征所属的方法,这种方法几乎在所有的计算机相关领域都有所涉及。那么,爬虫这一对数据的提取的技术也不例外。学好正则表达式是所有计算机人的基本功。 正则表达式的编译:将符合正则表达式语法的字符串转换成正则表达式特征。 正则表达式的常用操作符: 1. .表示...原创 2018-03-14 15:32:29 · 471 阅读 · 0 评论 -
scrapy + selenium + phantom框架流程
scrapy+selenium+phantomjs 在实际应用中发现splash的解析功能可能并没有那么方便,为了方便自动化的管理选自使用selenium即可。phantomjs PhantomJS是一个基于Webkit的”无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript,因为不会展示图形界面,所以运行起来比完整的浏览器更高效。 由于P...原创 2018-05-13 16:20:19 · 516 阅读 · 0 评论