（论文资料搜集整理)新闻网站正文抽取库：GeneralNewsExtractor

最新推荐文章于 2025-04-10 09:15:00 发布

原创最新推荐文章于 2025-04-10 09:15:00 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #新闻网站正文提取库

科研工具集合专栏收录该内容

1 篇文章

订阅专栏

GNE是一个高效的新闻正文抽取工具，能从数百个中文新闻网站中精准提取文章标题、正文内容、作者、发布时间及图片地址等信息。适用于今日头条、新浪、腾讯新闻等多个平台。

GeneralNewsExtractor（GNE）是一个通用新闻网站正文抽取模块，会输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、新浪，腾讯新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。

安装

pip install --upgrade gne

案例代码

import requests
from gne import GeneralNewsExtractor

url = "新闻链接"

payload={}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}

response = requests.request("GET", url, headers=headers, data=payload)

# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)