大数据分析应用之新闻APP应用
赵锴 Kai Zhao kingaim AT gmail DOT com
[本文与本人所在公司无关,请随意转载]
眼下各种新闻相关的APP应用,例如 XX头条,YY新闻。其实做一个自己的新闻APP也很简单,唯一比较复杂的就是如何对新闻进行聚合后,进行个性化推送(这部分现在的APP做的都不好)。
下面介绍新闻聚合的一个基本框架。
第一步:准备一个新闻网站的URL列表
第二步: 设置爬虫,每隔N分钟对URL列表网页进行爬取(爬虫请参照hetrix 或者solr等等google之)
第三步: 对爬取到的新闻text进行分类,政治/军事/搞笑/等等(可以采用最简单的朴素贝叶斯weka实现,当然也需要训练集,自行解决)
第四步: 对分类后的新闻进行去重 De-duplication,方法多种多样,可以采用各种距离/水印等等。
第五步: 对去重后的新闻计算新闻的权重(各种方法,可以参考各种维度,例如 时效性/重复度/等等)
第六步: 根据权重计算出热点新闻,同时抽取新闻的实体作为新闻标签(实体可以是任务/地点/事件等等)
第七步: 对新闻建立全文索引
第八步: 进行新闻的个性化推荐(单独讲)
希望通过这个简单的流程,让大家了解一个新闻APP是如何构建的。