进行了一些拓展(还可以再扩展,吧tele中间路径从主页中获取到,然后用map给用户选择):
#这里可以再改进,进行扩展,自行输入时间(貌似都一样,正则还是可以用)
#doc = urlopen("http://roll.tech.sina.com.cn/tele/2012-05-01.shtml").read()
newsYear = raw_input("Please input the year likes 2012: ")
newsMouth = raw_input("Please input the mouth likes 03: ")
newsDay = raw_input("Please input the day likes 02: ")
doc = urlopen("http://roll.tech.sina.com.cn/tele/" + \
newsYear + "-" + \
newsMouth + "-" + \
newsDay + \
".shtml").read()
没怎么接触网页及网络相关知识,再用没上手的Python,下面这段程序一波三折,bugs不少,但勉强还算是实现了对http://roll.tech.sina.com.cn/tele/2012-05-01.shtml网页新闻的抓取。win系统服务没加上,及一堆问题,待续……
# -*- coding: cp936 -*-
import win32serviceutil
import win32service
import win32event
from urllib import urlretrieve
from urll

本文介绍了一个使用Python实现的简单教程,演示如何抓取新浪网站上某一特定网页的新闻链接和标题。虽然作者对网页和网络知识不熟悉,且在编程过程中遇到了一些错误,但最终代码能够成功抓取http://roll.tech.sina.com.cn/tele/2012-05-01.shtml页面的新闻信息。文章提及了未来可能的改进方向,如完善Windows服务集成和其他待解决的问题。
最低0.47元/天 解锁文章
1556

被折叠的 条评论
为什么被折叠?



