---------基于Spark
zhi_fu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark机器学习笔记(2)--构建基于Spark的推荐引擎
1 推荐模型的分类推荐系统的研究已经相当广泛,也存在很多设计方法。最为流行的两种方法是基于内容的过滤和协同过滤。另外,排名模型等近期也受到不少关注。实践中的方案很多是综合性的,它们将多种方法的元素合并到一个模型中或是进行组合。 1.1 基于内容的过滤 基于内容的过滤利用物品的内容或是属性信息以及某些相似度定义,来求出与该物品类似的物品。这些属性值通常是文本内容(比如标题、名称、标签及该物品的其他原创 2017-09-12 15:42:31 · 1054 阅读 · 0 评论 -
Spark机器学习笔记(1)--用Python进行数据处理和特征提取
机器学习的流程 公开的数据集 1. UCL机器学习知识库:包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/。 2. Amazon AWS公开数据集:包含的通常是大型数据集,可通过Amazon S3访问。这些数据集包括人类基因组项目、Common Crawl网页语料库、维基百科数据和Goog原创 2017-09-11 14:36:39 · 2107 阅读 · 0 评论
分享