大数据分析应用之新闻APP应用

本文介绍了一个新闻APP的基本构建流程,从新闻聚合到个性化推荐。包括新闻URL列表准备、爬虫设置、新闻分类、去重、权重计算、热点新闻抽取及全文索引建立,最后是新闻个性化推荐。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据分析应用之新闻APP应用

赵锴 Kai Zhao kingaim AT gmail DOT com

[本文与本人所在公司无关,请随意转载]


眼下各种新闻相关的APP应用,例如 XX头条,YY新闻。其实做一个自己的新闻APP也很简单,唯一比较复杂的就是如何对新闻进行聚合后,进行个性化推送(这部分现在的APP做的都不好)。

下面介绍新闻聚合的一个基本框架。

第一步:准备一个新闻网站的URL列表

第二步: 设置爬虫,每隔N分钟对URL列表网页进行爬取(爬虫请参照hetrix 或者solr等等google之)

第三步: 对爬取到的新闻text进行分类,政治/军事/搞笑/等等(可以采用最简单的朴素贝叶斯weka实现,当然也需要训练集,自行解决)

第四步: 对分类后的新闻进行去重 De-duplication,方法多种多样,可以采用各种距离/水印等等。

第五步: 对去重后的新闻计算新闻的权重(各种方法,可以参考各种维度,例如 时效性/重复度/等等)

第六步: 根据权重计算出热点新闻,同时抽取新闻的实体作为新闻标签(实体可以是任务/地点/事件等等)

第七步: 对新闻建立全文索引

第八步: 进行新闻的个性化推荐(单独讲)


希望通过这个简单的流程,让大家了解一个新闻APP是如何构建的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值