
爬虫之路
学习Python,做爬虫
杜鲁门
keep moving
展开
-
Python2 爬虫(一) -- 人生第一条蠕动的爬虫
这些天因为项目需要,简答的学习了一下python爬虫,我记录一下自己是怎么一步步爬坑的痛苦。Python官网 在官网上下载对应版本的python,我这里下载的是老版本2.7.12 在这里跟大家提示一下,python2和python3是好大的不同的,我也不懂为嘛要这样设计。附上python安装教程,因为要配环境变量。(是不是很贴心)安装完成,如下图,我们在cmd中输入python就能验证我们是否成原创 2016-10-21 17:24:34 · 2838 阅读 · 0 评论 -
Python2 爬虫(二) -- 一条蠕动的爬虫爬出我优快云全部博文
如果是我的个人主页那种自己搭建服务器啥的,反正就是不用登录的也就是没有任何安全防范的网站,我们用之前一中的例子即可,如果要爬csdn这种网站,我们必须模拟成模拟器登录。先介绍一个工具吧,pycharm 官网 下载pycharm,然后这里面就会方便很多,而且会有很多包。pycharm 注册码pycharm大致界面如下 直接上代码。import requestsimport reimport sy原创 2016-10-21 18:42:57 · 1968 阅读 · 0 评论 -
Python2 爬虫(三) -- 爬优快云全部博文(自动获取页数)
在这里就学习一下python的字符串处理然后获取到页数之后,我们就啥也不用改,直接运行代码即可获得所有博文。全局变量。这里我们还要学习一下全局变量的问题import requestsimport reimport sysreload(sys)sys.setdefaultencoding("utf-8")def hi(id): url = "http://blog.youkuaiyun.com/bu原创 2016-10-22 09:43:06 · 5987 阅读 · 0 评论 -
Python2 爬虫(四) -- 模拟登陆(人人网和知乎)
人人网登录成功#! /usr/bin/env python# coding:utf-8import sysimport reimport urllib2import urllibimport requestsimport cookielib## 这段代码是用于解决中文报错的问题reload(sys)sys.setdefaultencoding("utf8")############原创 2016-10-22 14:23:42 · 1901 阅读 · 3 评论 -
Python int与string之间的转化
string–>int1、10进制string转化为int int('12')2、16进制string转化为int int('12', 16)int–>string1、int转化为10进制string str(18)2、int转化为16进制string hex(18)考虑,为什么没有16进制int转化为string,可以这么认为不管什么进制,python在内部表示都是10进制,先转化为10进原创 2016-10-21 17:27:50 · 184852 阅读 · 0 评论 -
判断Python输入是否为数字、字符(包括正则表达式)
当键入字符串时候,我们自己就可以判断了!一:我们在程序把输入的数字当字符串处理import reprint("我现在要写一个文件数字猜游戏数字游戏:")temp=input("请你输入一个数字,猜对了有奖,猜错了,没有关系:")guess=str(temp)while guess != '8': temp=input("还没有猜对,继续猜猜看,不要放弃:")原创 2016-10-21 19:27:17 · 61826 阅读 · 5 评论 -
Python字符串处理
去空格及特殊符号s.strip().lstrip().rstrip(',')复制字符串strcpy(sStr1,sStr2)sStr1 = 'strcpy'sStr2 = sStr1sStr1 = 'strcpy2'print sStr2连接字符串strcat(sStr1,sStr2)sStr1 = 'strcat'sStr2 = 'append'sStr1 += sStr2prin原创 2016-10-22 09:21:13 · 1188 阅读 · 0 评论 -
磁力链接+爬虫
磁力链接 磁力链接,简单的说(Magnet URI scheme):类似下面这样以“magnet:?xt=urn:btih:”开头的字符串,就是一条磁力链接;确切的说:“磁力链接”的主要作用是识别【能够通过“点对点技术(即:P2P)”下载的文件】。这种链接是通过不同文件内容的Hash结果生成一个纯文本的“数字指纹”,来识别文件的。而不是基于文件的位置或者名称。Python获取免费的可用代理在使用爬原创 2016-08-01 09:49:32 · 14327 阅读 · 0 评论