
hadoop
文章平均质量分 97
江凌
这个作者很懒,什么都没留下…
展开
-
Hive学习——用户自定义函数开发
一、前言 hive自定义函数分为一些三种: UDF:用户自定义标量函数,输入输出为一对一,如内置的upper函数; UDAF:用户自定义聚合函数,输入输出为多对一,如内置的sum函数; UDTF:用户自定义表值函数,输入输出为一对多,如内置的explode函数; 二、自定义函数开发步骤 不管是哪种自定义函数,hive用户自定义函数从开发到使用都需要大致经过下面几个步骤: 编码实现类,继承相应的UDF类(不同类型的函数继承类不一样),并在相应的方法中实现业...原创 2020-10-16 15:36:17 · 1227 阅读 · 0 评论 -
Hbase学习之——协处理Coprocessor的使用
一、Aggregation协处理器Aggregation为了弥补Hbase作为列存储数据库,难以进行求和、计数、排序等操作,能够进行一些简单的聚合操作,Aggregation将计算放在了server端,即region上,减少了网络通讯开销。Aggregation有以下两种开启方式: 修改hbase-site.xml配置文件,启动全局aggregation,能操纵所有的表上的数据 <property> <name>hbase.coprocess.原创 2020-09-14 14:30:37 · 3038 阅读 · 0 评论 -
大数据Hadoop学习之——好友推荐
一、算法说明好友关系如图: 1、直接相连的表示两个人是直接好友关系; 2、两个人有相同的好友表示两个人是间接好友(当然可能两个人同时也是直接好友,如图hello和hive)。 3、好友推荐列表就是按照两个用户的共同好友数量排名二、MapReduce分析1、分两步MapReduce计算完成;2、第一步先得到用户的间接好友关系数目,注意有直接好友关系的用户需要过滤掉;3、第二步根...原创 2020-08-21 11:55:50 · 4749 阅读 · 0 评论 -
大数据Hadoop学习之——网页排名PageRank算法
一、算法说明 PageRank即网页排名,也称佩奇排名(社会)。一些基本概念: 1、网页入链:即投票,网页中对其他网页的超链接作为其他网页的入链,相当于对其他网页投一票; 2、入链数量:如果一个网页获得其他网页的入链数量(投票)越多,说明该网页越重要; 3、入链质量:即投票权值,入链的质量由投票的网页决定,初始化值所有网页都一样,可以设置为1。网页的超链接越多,投票的权值越低。 4、阻尼系数d:也是佩奇定义的一个常数,...原创 2020-08-21 10:47:10 · 1639 阅读 · 0 评论 -
大数据Hadoop学习之——TF-IDF算法实现
一、算法说明 1、词频TF:是指给定词语在给定文件中出现的次数,一般会做归一化,即除以文件的总词数(注意是分词数,不是字数)。 TF=词在文章出现次数 / 文章的总词数 2、逆向文件频率IDF:普遍重要性度量,由文件总数除以包含该词的文件的数目,再对商取对数。 IDF=log(文件总数 / 包含目标词的文件个...原创 2020-08-19 19:57:14 · 1746 阅读 · 1 评论 -
大数据Hadoop学习之————基于物品的协同过滤算法实现物品推荐
一、实现基础 1、用户对物品的推荐列表(用户为列,物品为行) = 用户对物品的评分矩阵 × 物品同现矩阵 2、用户对物品的评分矩阵:用户对物品的点击、收藏、加购物车和购买等行为都是对物品的不同评分,矩阵如下: 并且,矩阵可以进行行列转换 3、物品同现矩阵:两个物品出现在同一个用户的次数,即item1和item2都出现在user1和user3,所以item1:item2的同现值为2,当然item2:item1的同现值也为2,所以物...原创 2020-08-19 14:32:06 · 3283 阅读 · 0 评论