
hadoop
shuangyueliao
这个作者很懒,什么都没留下…
展开
-
大数据之直播平台数据统计
已知有以下直播平台数据json格式{"id":158008900435,"uid":120010010445,"nickname":"jack435","gold":445,"watchnumpv":4350,"watchnumuv":870,"hots":1350,"nofollower":435,"looktime":8700,"smlook":2175,"follower":1740,...原创 2020-03-08 16:28:06 · 10500 阅读 · 2 评论 -
使用hadoop完成推荐算法
基于物品的推荐算法算法步骤已知以上用户对物品的行为,假设点击行为得1分,搜索行为得3分,收藏5分,付款10分。请为用户推荐合适的物品。1、从以上信息构建用户、物品的评分矩阵,如下图2、由以上矩阵构建物品的相似度矩阵如1号物品和2号物品,算出其第一行和第二行的余弦相似度,即可得出其第1号物品和第2号物品的相似度,最终得出6*6相似度矩阵3、相似度矩阵*评分矩阵=推荐列表左边是第...原创 2020-03-03 21:49:39 · 2412 阅读 · 0 评论 -
hadoop入门代码
输入文件1,2,3经过mapper处理成中间结果,最后再shuffle给reduce,最后得到最终结果,处理输入时的key都是默认排好序的。hadoop1的hdfs的block的大小是64M,从hadoop2起block大小默认是128M。案例一:输入一堆单词,统计各个单词重复出现的个数输入的格式如下,单词之间以空格隔开编写输出中间结果的mapper/** * 输入的map是(行号...原创 2020-02-29 23:25:28 · 577 阅读 · 0 评论