19、利用机器学习进行新闻文章图像推荐

利用机器学习进行新闻文章图像推荐

1 引言

人工智能正在全球范围内简化媒体机构策划和撰写新闻文章的工作流程。例如,微软曾使用人工智能扫描、处理和筛选内容,甚至为人类编辑推荐图片。然而,为新闻文章选择合适的图片这一领域尚未得到足够的关注。实际上,图片对读者的影响很大,能帮助他们更好地回忆文章内容。手动为大量文章选择图片十分繁琐,因此实现这一过程的自动化对新闻编辑室具有重要意义。

本研究通过关键词提取机制、高效的统计计算和机器学习来生成搜索查询,为新闻文章推荐合适的图片。具体来说,先从文章中提取术语,然后根据首次出现位置、词频和实体类别对这些术语进行排名。接着,使用机器学习和统计方法预测这些术语作为关键词的概率值,最后根据排名最高的术语生成图像查询。

2 方法

2.1 数据收集

数据来源于知名视觉媒体公司Getty Images的记录和BBC新闻网站。为此设计了一个网络采集应用程序,将从BBC新闻网站收集的文章本地存储。仅使用包含Getty图片的文章作为训练数据,这些图片需能传达文章的核心思想,应用程序会检查其Getty ID是否公开,并向Getty API请求图片元数据。同时,使用Thomson Reuters Open Calais识别语料库中的人物、事件、组织和其他实体。最终,通过这一过程积累了包含500,000个术语的数据集。数据收集流程如下:

graph LR
    A[BBC新闻网站] --> B[网络采集应用程序]
    C[Getty Images] --> B
    B --> D[本地存储文章]
    D -
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值