python爬取文章_python 爬取文章

本文介绍了一个使用Python爬虫抓取指定网址文章内容的例子,并详细展示了从网页获取文本信息的具体步骤,包括网页请求、内容解析及格式调整等。
部署运行你感兴趣的模型镜像

1144271-20170417220936556-1670643885.gif

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范,更高级的用法还要大家自己实践。

好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/article/673911.html

(注意,有一些网站会做一些反爬处理,关于这些网站的爬取会在近期的文章中说明)

这是一篇散文,)

可知网页的编码方式为GB2312

但在解码是要decode(’GB18030‘),

具体说明:http://www.cnblogs.com/jjj-fly/p/6696523.html

下面开始实现代码:

1 #coding=GB18030

2 importurllib.request3 from bs4 importBeautifulSoup4 importre5

6 url="http://www.duanwenxue.com/article/673911.html"

7 a=urllib.request.urlopen(url)8

9 htmlstr=a.read().decode('GB18030')10

11 soup=BeautifulSoup(htmlstr,'html.parser')12

13 y=re.compile(r'

([\s\S]*?)

')14 text=y.findall(str(soup)) #第一次正则表达式筛选所有

中的内容

15

16 x=''

17 print(len(text))18 for i inrange(0,len(text)):19 x=x+text[i]20

21 text1=re.sub("?\w+[^>]*>",'',x) #去掉html标签

22

23 text2=text1.replace("。",'。\n\n\0\0') #让文本更好看

24 print(text2)

输出结果

1144271-20170524213935185-1506361920.png

over!

参考:http://www.cnblogs.com/jjj-fly/p/6901022.html

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值