人生苦短,我用Python。
Python真的是很好的语言,很好用,那么我们该如何入门呢?
我觉得不用特别的学习,只要你有C/C++的一些知识,学习Python将不是一件很困难的事情。
这样一门语言,这样一个很好地工具,应该是不需要太高的学习成本的,所以我《Python边学边用》这个系列的文章,我将边用边学,可能代码不是那么“漂亮”,代码不是那么“优雅”,但是肯定实现了功能。
慢慢学,慢慢做,我会把这个工具用的越来越好。
文中描述方法不一定是最好的方法,只是我才疏学浅,自己只知道这么做能做出来,所以我就这么做了,欢迎交流批评。
要做什么
学校里有很多网站,教务处,研究生院,就业班,学术信息网,学院官网,实验室官网,等等等。。。。
每天各个网站上都会发几条新闻,有些还是蛮重要的新闻,比如奖学金申请,但是呢,每天翻7~8个网站,从7~8个网站的10多个页面中看一下当天的新闻,真是一件麻烦的事情。
大概都是这个样子的
效果呢希望做成这个样子:
每天定时收到一封邮件,邮件内容从所有这些网站中提取的新闻中,找出最近3天的发布的新闻,排序后以一个列表的方式发送到我的邮箱,标题就是新闻内容的超链接。
怎么做
基本思路是这样
【抓取网页 -> 提取筛选信息 -> 排序 -> 组织HTML -> 通过邮件发送】 + 定时运行
那么这里主要记录一下【】中的主要过程
搭建开发环境
这里使用Python3.5,官网下载直接安装就可以
IDE使用PyCharm,社区版免费。
基础语法学习资料推荐 Python基础教程,作为入门教程很合适。看完入门之后,官方文档是最好的教程
PIP安装教程(Windows)
Python的优点是有许许多多的好用的轮子,为了方便获取这些轮子,需要安装pip来方便的获取。类似Linux的apt-get
Step1、官网下载
点击打开链接https://pypi.python.org/pypi/pip#downloads
Step2、安装PIP
下载完成之后,解压到一个文件夹,用CMD控制台进入解压目录,输入:
python setup.py install
Step3、使用PIP安装轮子
安装好PIP之后,可以直接使用下面的语法来安装轮子xxxxx
pip install xxxxx
抓取网页
这里没有使用爬虫框架,主要是因为做这个是为了学习Python,实现简单功能即可。
在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。
urllib中包括了四个模块,包括urllib.request,urllib.error,urllib.parse,urllib.robotparser
- urllib.request可以用来发送request和获取request的结果
- urllib.error包含了urllib.request产生的异常
- urllib.parse用来解析和处理URL
- urllib.robotparse用来解析页面的robots.txt文件