
爬虫
urnotchenyijia
这个作者很懒,什么都没留下…
展开
-
mac装Scrapy安装方法
mac系统自带python2.7版本,所以在直接使用pip的时候,找不到pip,我们通过重新安装python更新pip的版本,然后用pip安装Scrapy(S大写)。brew install python 通过安排python,升级pip–>pip32.>>>pip #无效 3.pip因为python的升级也升级了4.python2的开启方式5.py...原创 2018-09-04 22:20:39 · 705 阅读 · 0 评论 -
mac上安装配置PhantomJS
1.首先,下载PhantomJS:http://phantomjs.org/download.html2.下载后解压,配置环境变量: 打开终端vi ~/.bash_profile按i键,进入编辑模式在最下面添加 alias phantomjs=’~/PATH/phantomjs’,其中PATH为解压后phantomjs文件所在路径,例如:export PATH="/Users/jia...原创 2018-10-31 21:31:30 · 456 阅读 · 0 评论 -
qq空间或者人人网的爬虫方法
爬取自己的QQ空间 import urllib.parseimport urllib.requestfrom http import cookiejarimport sslssl._create_default_https_context = ssl._create_unverified_context#通过cookieJar()类构建一个cookieJar()对象,用来保存c...原创 2018-10-12 10:53:30 · 359 阅读 · 0 评论 -
运行代码后出现Process finished with exit code 0是为什么?
Process finished with exit code 0意味着你的程序正常执行完毕并退出。可以科普一下exit code,在大部分编程语言中都适用:exit code 0 表示程序执行成功,正常退出exit code 1 表示程序执行执行过程中遇到了某些问题或者错误,非正常退出...原创 2018-10-12 10:42:14 · 235533 阅读 · 6 评论 -
python3.6的cookielib
python2.0版本导入cookielib直接import cookielibpython 3.6 改成 http.cookiejar了,所以只要改成from http import cookiejar就自动导入cookiejar了,如果还是不行,就把所有的.pyc删掉试试。import urllib.parseimport urllib.requestfrom http i...原创 2018-10-12 09:48:36 · 19249 阅读 · 3 评论 -
Python网络爬虫报错“SSL: CERTIFICATE_VERIFY_FAILED”的解决方案
import sslssl._create_default_https_context = ssl._create_unverified_context 经过上网查找原因,原来是Python 升级到 2.7.9 之后引入了一个新特性,当使用urllib.urlopen打开一个 https 链接时,会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出此异常。 解决方案有...原创 2018-09-23 19:57:55 · 1835 阅读 · 0 评论 -
有道翻译爬取代码
import urllib.requestimport urllib.parse#通过抓包的方式获取post的url,并不是浏览器地址栏的urlurl = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"#用户接口输入key=input("请输入需要翻译的文字:")#发送到web服务器...原创 2018-09-23 19:34:58 · 676 阅读 · 0 评论 -
爬虫如果爬取的是乱码,解决方法
在urlencode()后面加.encode(encoding='gdk')如果还是不行,则再在read()后面加.decode("utf-8")原创 2018-09-23 19:14:35 · 4479 阅读 · 0 评论 -
python爬取有道翻译出错 {‘errorcode’:50}
import urllib.requestimport urllib.parseurl = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key=input("请输入需要翻译的文字:")formdata ={ "i": key, "from": "AUTO", ..原创 2018-09-23 19:10:17 · 1634 阅读 · 4 评论 -
urllib2默认支持HTTP/HTTPS的GET和POST方法
urllib.urlencode()urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1.urllib仅可以接受URL,不能创建设置headers的Request实例;2.但是urllib提供urlencode方法用来GET查询字符串的产生,而urllib2则没有。(这是urllib和urllib2经常一起使用的主要原因)3.编码同作...原创 2018-09-14 16:12:02 · 532 阅读 · 0 评论 -
Response响应和User-Agent历史
response是服务器响应的类文件,除了支持文件操作的方法外,还支持以下常用的方法: #读取文件里的全部内容,返回字符串print(resopnse.read())#返回HTTP的响应码,成功返回200。4服务器页面出错,5服务器问题print(response.getcode())#返回实际数据的实际URL,防止重定向问题print(response.geturl())#返回...原创 2018-09-12 14:52:54 · 778 阅读 · 0 评论 -
1.爬虫概念
一、“大数据时代”,数据获取的方式:1.企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然优势,有数据意识的中小型企业,也开始积累的数据。2.数据管理咨询公司:艾瑞,埃森哲等。通常这样的公司有很庞大的数据采集团队,一般会通过市场调研、问卷调查、固定的样本监测、和各行各业公司进行合作、专家对话(数据积累很多年了,最后得出科研结果)来采集数据。3.政府/机构提供的公开数据...原创 2018-09-03 23:00:07 · 1732 阅读 · 0 评论 -
2.爬虫之urllib2库的基本使用
爬虫之urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在python中有很多库可以用来抓取网页。urllib2是python2.7自带的模块(不需要下载,导入即可使用)urllib2官方文档:https://docs.python.org/2/library/urllib2.htmlurllib2源码:https://hg.p...原创 2018-09-11 17:30:10 · 320 阅读 · 0 评论 -
Python编码错误的解决办法SyntaxError: Non-ASCII character '\xe5' in file
现象】在编写Python时,当使用中文输出或注释时运行脚本,会提示错误信息:SyntaxError: Non-ASCII character '\xe5' in file *******【原因】python的默认编码文件是用的ASCII码,而你的python文件中使用了中文等非英语字符。【解决办法】在Python源文件的最开始一行,加入一句:# coding=UTF-8...原创 2018-09-11 12:09:30 · 1853 阅读 · 0 评论 -
HTTP和HTTPS以及Fiddler的使用_recv
一、HTTP和HTTPSHTTP协议(超文本传输协议):是一种发布和接受HTML页面的方法。HTTPS就是HTTP的安全版,在HTTP下加入SSL层。SSL(安全套接层)主要用于Web的完全传输协议,在传输层对网络链接进行加密,保障在Internet上数据传输的安全。 HTTP的端口号为80,HTTPS的端口号为443HTTP工作原理网络爬虫抓取过程可以理解为 模拟...原创 2018-09-04 23:27:45 · 1361 阅读 · 0 评论 -
Selenium+PhantomJS使用时报错原因及解决方案
今天在使用selenium+PhantomJS动态抓取网页时,出现如下报错信息:UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selenium suppor...原创 2018-10-31 21:56:05 · 606 阅读 · 0 评论