1)⑥爬取腾讯经济相关的部分新闻

本文介绍了一个基于Python的简单网页爬虫程序,用于从腾讯财经网站抓取新闻链接及文章内容。通过解析HTML标签获取所需信息,并利用正则表达式筛选特定URL,最后将爬取的内容保存至本地文件。
 1 __author__ = 'minmin'
 2 #coding:utf-8
 3 import re,urllib,sgmllib
 4 
 5 #根据当前的主页url获取html
 6 def getHtml(url):
 7     page = urllib.urlopen(url)
 8     html = page.read()
 9     page.close()
10     return html
11 
12 
13 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。
14 class URLPaser(sgmllib.SGMLParser):
15     def reset(self):
16         sgmllib.SGMLParser.reset(self)
17         self.urls = []
18 
19     def start_a(self,attrs):
20         href = [v for k,v in attrs if k == 'href']
21         if href:
22             self.urls.extend(href)
23 
24 #根据html获取想要的文章内容
25 def func(str):
26     #用正则表达式提取自己想要获取的内容
27      result = re.findall(r"<P style=\"TEXT-INDENT: 2em\">([^<>]*)<\/P>",getHtml(url),re.M)
28      artical =''
29      for j in result:
30          if len(j)<>0:
31              j = j.replace("<STRONG>","   ")#去掉<STRONG>,换成"     "
32              j = j.replace("</STRONG>","   ")#去掉</STROGN>换成"     "
33              artical = artical + j + '\n'
34      return  artical
35 
36 
37 IParser = URLPaser()
38 socket = urllib.urlopen("http://finance.qq.com/")#打开主页
39 
40 IParser.feed(socket.read())#开始分析处理
41 
42 reg = 'http://finance.qq.com/a/.*'#用来匹配符合条件的链接,使用正则表达式匹配
43 
44 pattern = re.compile(reg)
45 
46 i = 0
47 url2 = []
48 for url in IParser.urls:#链接都存在urls里
49 
50     if pattern.match(url):#匹配符合条件的链接
51         artical = func(url)#调用函数func
52         if url not in url2:#重复的url不再进行提取文章内容
53              url2.append(url)
54              print url
55              if len(artical)<>0:#如果文章捏弄内容不为空
56                    print artical
57                    i = i + 1
58                    #这个文件地址是文件保存地址,可根据要保存位置自己进行相应的更改
59                    f = open("qq/Economy/"+str(i) + '.txt','a+')#把提取的内容按顺序保存在相应文件夹中
60                    f.write(artical)
61                    f.close()
62 
63 
64 #################################################################################################################
65 #注:本文借鉴http://www.jb51.net/article/52062.htm
66 #并在其基础上改进的 重复的url不再进行爬取,并把提取的内容写到指定的文件夹中
67 #################################################################################################################

 

转载于:https://www.cnblogs.com/minmsy/p/4962749.html

乐播投屏是一款简单好用、功能强大的专业投屏软件,支持手机投屏电视、手机投电脑、电脑投电视等多种投屏方式。 多端兼容与跨网投屏:支持手机、平板、电脑等多种设备之间的自由组合投屏,且无需连接 WiFi,通过跨屏技术打破网络限制,扫一扫即可投屏。 广泛的应用支持:支持 10000+APP 投屏,包括综合视频、网盘与浏览器、美韩剧、斗鱼、虎牙等直播平台,还能将央视、湖南卫视等各大卫视的直播内容一键投屏。 高清流畅投屏体验:腾讯独家智能音画调校技术,支持 4K 高清画质、240Hz 超高帧率,低延迟不卡顿,能为用户提供更高清、流畅的视觉享受。 会议办公功能强大:拥有全球唯一的 “超级投屏空间”,扫码即投,无需安装。支持多人共享投屏、远程协作批注,PPT、Excel、视频等文件都能流畅展示,还具备企业级安全加密,保障会议资料不泄露。 多人互动功能:支持多人投屏,邀请好友加入投屏互动,远程也可加入。同时具备一屏多显、语音互动功能,支持多人连麦,实时语音交流。 文件支持全面:支持 PPT、PDF、Word、Excel 等办公文件,以及视频、图片等多种类型文件的投屏,还支持网盘直投,无需下载和转格式。 特色功能丰富:投屏时可同步录制投屏画面,部分版本还支持通过触控屏或电视端外接鼠标反控电脑,以及在投屏过程中用画笔实时标注等功能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值