格式参考文章
-引言introduction
-背景background
(数据量越来越大引出大数据,什么是大数据,大数据在各个行业产生的挑战,大数据在推荐方面影响也很大,推荐系统的意义,推荐系统在各个方面的应用,推荐系统的发展)
回顾文章名称,大数据下在mapreduce上的一种服务推荐算法。
关键词:推荐系统,偏好(稳重着重考虑的因素),keyword(文章利用的因素),大数据,mapreduce,hodoop(重心是推荐算法)
-动机motivation
(大数据的需要以及带来的挑战,现有推荐系统的缺陷,列举一个现实案例展示面临的问题,本文的解决办法) 文章行文结构
-预备知识preliminary knowledge(相关工作)
(推荐系统和协同过滤、云计算和mapreduce)
xxx算法
应用于mapreduce 实验(实验设置和数据库、实验评估[准确性稳定性])
相关工作(注意别和预备知识弄混?相当于国内外现状)
(在学术和工业方面都已经有很多推荐系统,×××提出×××算法,对比来说本文算法的优势)
总结和展望
致谢
-引言introduction
-动机motivation
(数据增长大数据时代,大数据带来的挑战和问题,实时数据处理的需求,第一个问题是有效地从大量高维数据中提取有用信息,第二个问题是有看良好分类性能的技术)
(云计算平台上的分布和数据挖掘案例,mapreduce的缺陷以及spark的优点,介绍RF算法)
回顾文章名称,A Parallel Random Forest Algorithm for Big Data in a Spark Cloud Computing Environment,关键词:Apache spark,大数据,云计算,数据并行,随机森林,任务并行(重心在spark上,因为算法是老算法,只是并行计算加快速度)
-贡献(contributions)
1.RF优化方法
2.并行算法
3.并行数据
行文结构
-相关工作(related work)
-算法(algorithm)
-spark上算法的并行
-实验
实验设置
分类准确率(不同树规模的分类准确率/OOB错误率,不同数据规模的分类准确率)
性能评估(不同数据集的平均执行时间,不同cluster规模的平均执行时间,不同环境下的RF加速比(spark/no spark),不同RF硅胶模的数据容量任曦,数据通信成本分析)
-总结
共同之处:
with the emergence of the big data age
both academia and industry