利用机器学习进行新闻文章图像推荐
1 引言
人工智能正在全球范围内简化媒体机构策划和撰写新闻文章的工作流程。例如,微软曾使用人工智能扫描、处理和筛选内容,甚至为人类编辑推荐图片。然而,为新闻文章选择合适的图片这一领域尚未得到足够的关注。实际上,图片对读者的影响很大,能帮助他们更好地回忆文章内容。手动为大量文章选择图片十分繁琐,因此实现这一过程的自动化对新闻编辑室具有重要意义。
本研究通过关键词提取机制、高效的统计计算和机器学习来生成搜索查询,为新闻文章推荐合适的图片。具体来说,先从文章中提取术语,然后根据首次出现位置、词频和实体类别对这些术语进行排名。接着,使用机器学习和统计方法预测这些术语作为关键词的概率值,最后根据排名最高的术语生成图像查询。
2 方法
2.1 数据收集
数据来源于知名视觉媒体公司Getty Images的记录和BBC新闻网站。为此设计了一个网络采集应用程序,将从BBC新闻网站收集的文章本地存储。仅使用包含Getty图片的文章作为训练数据,这些图片需能传达文章的核心思想,应用程序会检查其Getty ID是否公开,并向Getty API请求图片元数据。同时,使用Thomson Reuters Open Calais识别语料库中的人物、事件、组织和其他实体。最终,通过这一过程积累了包含500,000个术语的数据集。数据收集流程如下:
graph LR
A[BBC新闻网站] --> B[网络采集应用程序]
C[Getty Images] --> B
B --> D[本地存储文章]
D -
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



