GeneralNewsExtractor(GNE)是一个通用新闻网站正文抽取模块,会输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。
安装
pip install --upgrade gne
案例代码
import requests
from gne import GeneralNewsExtractor
url = "新闻链接"
payload={}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}
response = requests.request("GET", url, headers=headers, data=payload)
# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)
GNE是一个高效的新闻正文抽取工具,能从数百个中文新闻网站中精准提取文章标题、正文内容、作者、发布时间及图片地址等信息。适用于今日头条、新浪、腾讯新闻等多个平台。
1647

被折叠的 条评论
为什么被折叠?



