物联网大数据编程模型解析
1. 统计与分析工具特性
统计结果可以图形化表示并存储在磁盘上。通过创建新函数,分析过程能够实现自动化。数据集会在会话间保存于系统中,避免重复加载数据。该工具可在所有主流平台(Windows、Macintosh 和 Linux)上运行,还提供了如 RStudio、R Commander、StatET、ESS(Emacs Speaks Statistics)、JGR Java GUI for R 等免费的图形用户界面(GUI)选项。它可用于数据提取、清洗、加载、转换、统计分析、可视化以及预测建模,支持线性和非线性建模、经典统计测试、时间序列分析、分类和聚类等操作。
2. Mahout 介绍
Mahout 于 2008 年作为 Apache 软件基金会的子项目启动,运行在 Hadoop 之上,采用 MapReduce 概念,是一个可扩展的机器学习库。其顺序和并行机器学习算法可在 MapReduce、Spark、H2O 和 Flink 上运行,核心主题包括聚类、分类和协同过滤。以下是 Mahout 在不同领域的应用:
|应用领域|具体应用|
| ---- | ---- |
|电子商务|亚马逊使用协同过滤进行商品推荐,根据用户的购买和浏览行为推荐相关商品|
|新闻|谷歌新闻利用聚类技术按主题对新闻文章进行分组,呈现更有逻辑的新闻内容|
|邮件|雅虎邮箱运用分类技术,根据用户之前的邮件、垃圾邮件报告和邮件特征识别传入的垃圾邮件|
|照片管理|谷歌的 Picasa 采用分类技术从图像的其他区域识别出人脸|
|视频|Adobe AMP 使用 Mahout 的聚类算法,通过更好的用户定位提高视频消
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



