Python库： jparser 用于网页转码

最新推荐文章于 2025-01-15 14:45:05 发布

python爬虫学习

最新推荐文章于 2025-01-15 14:45:05 发布

阅读量478

点赞数

CC 4.0 BY-SA版权

分类专栏： python爬虫 python基础 python入门 python

本文链接：https://blog.youkuaiyun.com/qq_39363022/article/details/88045249

python 同时被 3 个专栏收录

142 篇文章

订阅专栏

python爬虫

134 篇文章

订阅专栏

python入门

131 篇文章

订阅专栏

前言

parser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

依赖：lxml