
python爬虫
meichuanyi
这个作者很懒,什么都没留下…
展开
-
反爬虫可能性整理
1.RefererReferer是浏览器在页面跳转时带入的HTTP头,指示用户上一个页面的URL, 一般来说,网站90%以上的流量应该带有Referer头, 在一些常见的反爬策略中, 大量的不带Referer头的源IP请求会触发"要求输入验证码"策略。2. User-AgentUser-Agent 是一个古老的HTTP头,指示用户浏览器的版本、操作系统等基本信息, UserAgent伪装已经在其他...原创 2018-02-08 19:35:12 · 2008 阅读 · 1 评论 -
一文读懂网络爬虫
摘要: 前言 在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了“爬虫”技术的飞速发展。前言在当前数据爆发的时代,数据分析行业势头强劲,越来越多的人涉足数据分析领域。进入领域最想要的就是获取大量的数据来为自己的分析提供支持,但是如何获取互联网中的有效信息?这就促进了“爬虫”技...转载 2018-02-08 19:41:05 · 10329 阅读 · 2 评论 -
MongoDB的使用
准备工作:安装mongodb,安装pymongo配置环境变量,C:\MongoDB\bin安装可视化工具 Robomongo开启mongodb服务,cmd mongod1、导入模块import pymongo2、连接MongoDB数据库,选择(创建)数据库,选择(创建)数据表如果不存在,则会在插入第一条数据时自动创建#连接数据库服务器client = pymongo.MongoClient('l...转载 2018-02-08 19:10:03 · 459 阅读 · 0 评论