页面标题的爬取 以及页面text的爬取
python 新闻网站通用爬虫
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE 在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色,几乎能够达到 100%的准确率。
from gne import GeneralNewsExtractor
extractor = GeneralNewsExtractor()
html = '网站源代码'
result = extractor.extract(html)
print(result)
安装
pip install gne -i https://mirrors.163.com/pypi/simple/
功能特性
获取正文源代码
在 extract() 方法只传入网页源代码,不添加任何额外参数时,GNE 返回如下字段:
- title:新闻标题
- publish_time:新闻发布时间
- author:新闻作者
- content:新闻正文
- images: 正文中的图片(相对路径或者绝对路径)
可能有些朋友希望获取新闻正文所在标签的源代码,此时可以给 extract() 方法传入 with_body_html 参数,设置为 True:
extractor = GeneralNewsExtractor()
extractor.extract(html, with_body_html

GNE是一款高效的新闻正文抽取工具,支持多种新闻网站,准确率高。输入HTML即可提取标题、正文等内容。
最低0.47元/天 解锁文章
1611

被折叠的 条评论
为什么被折叠?



