【学习笔记】Python系列
文章平均质量分 70
Sidney_VonWunderland
学习~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【python学习笔记】web文本抓取时用到的模块盘点
在制作网络爬虫、进行文本分析时,用到的模块原创 2015-03-29 13:44:38 · 752 阅读 · 0 评论 -
【python学习笔记】运算符、表达式
【表达式】 学过C/C++,就很容易类比得出Python的表达式了: 算术运算符: 一级、二级运算+, -, *, /, //, **, ~, % 移位>>, 二进制运算&, |, ^ 比较运算: >, =(~, |, ^, &, >必须应用于整数) 逻辑运算:得出的是true false值 and, or, not( #不是&& || !() 哦~) 对象的比较: 对象相原创 2015-03-12 14:04:56 · 614 阅读 · 0 评论 -
【pyhton学习笔记】历数那些遇到的错误
制作python爬虫时遇到的错误原创 2015-03-29 13:41:54 · 1838 阅读 · 0 评论 -
【python学习笔记】自动抓取雅虎新闻的内容
在雅虎新闻(http://news.yahoo.com/)搜索,过滤掉来源自雅虎新闻的新闻,提取在html源代码中包含的新闻正文,采用计算文段密度并提取最长文段为正文。对文本进行清洗,去除html标记、无用字段等垃圾,存成txt。再去除无效、过短等不符合质量要求的新闻, 存在的问题是一旦有http报错,就会终止程序,极大影响效率。 #coding:utf-8 import re import原创 2015-03-12 14:46:48 · 3739 阅读 · 0 评论 -
【python学习笔记】网络爬虫的完整源代码
实现功能:在百度新闻(http://news.baidu.com/)搜索关键词“中国 美国”,通过url判断,取前120条新闻,并过滤不重复来源的、有效链接新闻。提取新闻文本:提取在html源代码中包含的新闻正文,采用计算文段密度并提取最长文段为正文。对文本进行清洗,去除html标记、无用字段等垃圾,存成txt。 注:本代码借鉴了: http://blog.youkuaiyun.com/a8572785/原创 2015-03-12 14:07:21 · 3907 阅读 · 0 评论 -
【python学习笔记】学习目的、资料汇总
【目的】为了做网络爬虫,在百度上搜索新闻,并记录在txt内,学习python。 【入门】 了解python: 文件:保存,文本文档 .py 运行: 终端运行, python name.py 注释:# “”“ ”“” 函数: def function(): print 'function' 库、模块导入: import urllib2 变量:无明显类型区别原创 2015-03-12 13:40:41 · 1015 阅读 · 0 评论
分享