
Python
shengxiaweizhi
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百转载 2015-05-11 22:45:46 · 815 阅读 · 0 评论 -
从底层理解Python的执行
最近我在学习 Python 的运行模型。我对 Python 的一些内部机制很是好奇,比如 Python 是怎么实现类似 YIELDVALUE、YIELDFROM 这样的操作码的;对于 递推式构造列表(List Comprehensions)、生成器表达式(generator expressions)以及其他一些有趣的 Python 特性是怎么编译的;从字节码的层面来看,当异常抛出的时候都发生了什么转载 2015-05-31 22:17:31 · 525 阅读 · 0 评论 -
Python文件关闭机制详解
如果不用“with”,那么Python会在何时关闭文件呢?答案是:视情况而定。Python程序员最初学到的东西里有一点就是可以通过迭代法很容易地遍历一个打开文件的全文:f =open('/etc/passwd')for line in f: print(line)注意上面的代码具有可行性,因为我们的文件对象“转载 2015-05-29 22:21:07 · 799 阅读 · 0 评论 -
Python基础技术问题总结
Introduction此篇文章总结python一些常见的技术问题,每一个都是简短的解释,篇幅不大,不断更新中…解释一下python的 and-or 语法python的and-or常常被用来实现类C语言中的三元运算符:?, 更骚包的写法是 xxx and xxx or xxx and xxx or xxx,连接多个表达式,一行就够了。1234转载 2015-05-12 22:31:53 · 363 阅读 · 0 评论 -
Python爬虫入门八之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。1. Beautiful Soup转载 2015-05-11 22:58:59 · 943 阅读 · 0 评论 -
Python爬虫实战三之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。本篇目标1.模拟登录学生成绩管理系统2.抓取本学期成绩界面3.计算打印本学期成绩1.URL的获取恩,博主来自山东大学~转载 2015-05-11 22:47:53 · 1108 阅读 · 0 评论 -
Python写爬虫抓站的一些技巧
1.最基本的抓站import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.转载 2015-05-11 22:43:37 · 339 阅读 · 0 评论 -
Python写爬虫抓站的一些技巧
1.最基本的抓站import urllib2 content = urllib2.urlopen('http://XXXX').read() 2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2 proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.转载 2015-05-11 22:57:16 · 375 阅读 · 0 评论 -
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果1. 淘宝的密码用了AES加密算法,最终将密码转化为256位,在POST时,传输的是256位转载 2015-05-11 22:51:39 · 8591 阅读 · 0 评论 -
Python爬虫实战四之抓取淘宝MM照片
福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢?本篇目标1.抓取淘宝MM的姓名,头像,年龄2.抓取每一个MM的资料简介以及写真图片3.把每一个MM的写真图片按照文件夹保存到本地4.熟悉文件保存的过程1.URL的格式在这里我们用到的URL是http://mm.taobao.com/json/request_top_list.htm?pag转载 2015-05-11 22:48:51 · 1325 阅读 · 0 评论 -
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子。与上一篇不同的是,这次我们需要用到文件的相关操作。本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先,我们先观察一下百度贴吧的任意一个帖子。比如:http://tieba.baidu.com/p/313873转载 2015-05-11 22:48:36 · 1732 阅读 · 0 评论 -
Python调用OpenDaylight REST API实验
作为一种简洁易用的编程语言,Python现在广泛应用于Web开发,网络开发等场景中。OpenDaylight为开发者提供了基于REST的API,以开发上层网络应用程序。在另一种云操作系统OpenStack中,使用了Python + Django的MTV网页开发框架,因此,使用Python对OpenDaylight API进行调用实验,以探索未来OpenDaylight整合进入OpenStack的W转载 2015-05-11 22:43:44 · 1123 阅读 · 0 评论 -
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Py转载 2015-05-11 22:58:12 · 1027 阅读 · 0 评论 -
Python爬虫入门七之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,转载 2015-05-11 22:53:44 · 459 阅读 · 0 评论 -
Python爬虫入门六之Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取转载 2015-05-11 22:52:43 · 560 阅读 · 0 评论 -
Python 自然语言处理(NLP)工具库汇总
1.NLTKNLTK 在使用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的接口,以及分类、分词、词干提取、标注、语法分析、语义推理等类库。网站http://www.nltk.org/安装安装 NLTK: sudo pip install -U nltk安装 Numpy (可选): sudo pip install -转载 2015-08-03 22:26:46 · 1941 阅读 · 0 评论