抓取网页标签之间的中文字

最新推荐文章于 2022-11-11 14:28:15 发布

bobxiaoqi

最新推荐文章于 2022-11-11 14:28:15 发布

阅读量407

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python

本文链接：https://blog.youkuaiyun.com/bobxiaoqi/article/details/39379487

python 专栏收录该内容

3 篇文章

订阅专栏

#!/usr/bin/env python
import urllib2
import re

file_url='http://money.163.com/forex/'
f=urllib2.urlopen(file_url).read()
p=re.compile(r'<option\svalue="..">(.*?)</option>',re.U|re.S) ＃问号表示不是贪婪匹配
results=p.findall(f)
for result in results:

print result.decode("gb2312").encode("UTF-8") #gb2312是网页的编码，我们转换为UTF－8格式

输出结果为：

股票
基金
期货
港股
美股
外汇