
大数据
文章平均质量分 97
江凌
这个作者很懒,什么都没留下…
展开
-
Kafka的offset自定义存储实现
一、什么是Offset在kafka中,每一条消息都有一个与之对应的序列号,这个序列号就是offset,表示消息的偏移量。特点: 偏移量从0开始递增 topic中的每个分区维护自己的一个offset 二、Offset存储位置每个消费者本地内存中会存储自己当前消费消息的offset,以便下次消费消息从offset+1开始消费。此外,消费者每次消费完消息后还要将offset提价到kafka集群,kafka集群会将offset保存到kafka本地。对应的就是一条group_原创 2020-12-09 11:05:37 · 1463 阅读 · 0 评论 -
Hive学习——用户自定义函数开发
一、前言 hive自定义函数分为一些三种: UDF:用户自定义标量函数,输入输出为一对一,如内置的upper函数; UDAF:用户自定义聚合函数,输入输出为多对一,如内置的sum函数; UDTF:用户自定义表值函数,输入输出为一对多,如内置的explode函数; 二、自定义函数开发步骤 不管是哪种自定义函数,hive用户自定义函数从开发到使用都需要大致经过下面几个步骤: 编码实现类,继承相应的UDF类(不同类型的函数继承类不一样),并在相应的方法中实现业...原创 2020-10-16 15:36:17 · 1227 阅读 · 0 评论 -
Hbase学习之——协处理Coprocessor的使用
一、Aggregation协处理器Aggregation为了弥补Hbase作为列存储数据库,难以进行求和、计数、排序等操作,能够进行一些简单的聚合操作,Aggregation将计算放在了server端,即region上,减少了网络通讯开销。Aggregation有以下两种开启方式: 修改hbase-site.xml配置文件,启动全局aggregation,能操纵所有的表上的数据 <property> <name>hbase.coprocess.原创 2020-09-14 14:30:37 · 3038 阅读 · 0 评论 -
大数据Hadoop学习之——好友推荐
一、算法说明好友关系如图: 1、直接相连的表示两个人是直接好友关系; 2、两个人有相同的好友表示两个人是间接好友(当然可能两个人同时也是直接好友,如图hello和hive)。 3、好友推荐列表就是按照两个用户的共同好友数量排名二、MapReduce分析1、分两步MapReduce计算完成;2、第一步先得到用户的间接好友关系数目,注意有直接好友关系的用户需要过滤掉;3、第二步根...原创 2020-08-21 11:55:50 · 4749 阅读 · 0 评论 -
大数据Hadoop学习之——网页排名PageRank算法
一、算法说明 PageRank即网页排名,也称佩奇排名(社会)。一些基本概念: 1、网页入链:即投票,网页中对其他网页的超链接作为其他网页的入链,相当于对其他网页投一票; 2、入链数量:如果一个网页获得其他网页的入链数量(投票)越多,说明该网页越重要; 3、入链质量:即投票权值,入链的质量由投票的网页决定,初始化值所有网页都一样,可以设置为1。网页的超链接越多,投票的权值越低。 4、阻尼系数d:也是佩奇定义的一个常数,...原创 2020-08-21 10:47:10 · 1639 阅读 · 0 评论 -
大数据Hadoop学习之——TF-IDF算法实现
一、算法说明 1、词频TF:是指给定词语在给定文件中出现的次数,一般会做归一化,即除以文件的总词数(注意是分词数,不是字数)。 TF=词在文章出现次数 / 文章的总词数 2、逆向文件频率IDF:普遍重要性度量,由文件总数除以包含该词的文件的数目,再对商取对数。 IDF=log(文件总数 / 包含目标词的文件个...原创 2020-08-19 19:57:14 · 1746 阅读 · 1 评论 -
大数据Hadoop学习之————基于物品的协同过滤算法实现物品推荐
一、实现基础 1、用户对物品的推荐列表(用户为列,物品为行) = 用户对物品的评分矩阵 × 物品同现矩阵 2、用户对物品的评分矩阵:用户对物品的点击、收藏、加购物车和购买等行为都是对物品的不同评分,矩阵如下: 并且,矩阵可以进行行列转换 3、物品同现矩阵:两个物品出现在同一个用户的次数,即item1和item2都出现在user1和user3,所以item1:item2的同现值为2,当然item2:item1的同现值也为2,所以物...原创 2020-08-19 14:32:06 · 3284 阅读 · 0 评论 -
阿里云大数据ACP认证学习笔记之——————RDS
基础概念支持的数据库引擎云数据库RDS MySQL 云数据库RDS SQL Server 云数据库RDS PostgreSQL 云数据库RDS PPAS:企业级关系型数据库,基于PostgreSQL。 云数据库RDS MariaDB TX:MariaDB是MySQL的一个分支。实例版本 基础版:只有一个主库。 由于不提供备节点,主节点不会因为实时的数据库复制而产生额外的性能开销,因此基础版的性能相对于同样配置的高可用版或三节点企业版(原金融版)甚至有所提升; 可以通过变更配置升级为高原创 2020-08-05 17:54:13 · 924 阅读 · 0 评论 -
阿里云大数据ACP认证学习笔记之——————Dataworks
基本概念 产品服务 数据集成 数据开发 数据地图 数据质量 数据服务 计算和存储引擎服务 离线计算MaxCompute 开源大数据引擎E-MapReduce 实时计算(基于Flink) 机器学习PAI 图计算服务Graph Compute 交互式分析服务 工作空间:DataWorks管理任务、成员,分配角色和权限的基本单元。 解决方案:可以包括多个业务流程,以复用相同的业务流程。 组件:组件是带有多个输入参数和输出参数的SQL代码过程模板原创 2020-08-05 17:52:51 · 1464 阅读 · 0 评论 -
阿里云大数据ACP认证学习笔记之——————AnalyticDB for MySQL
基本概念OLTP:On-Line Transaction Processing,联机事务处理,例如MySQL和PostgreSQL的数据存储,适合频繁的数据插入和修改。 OLAP:On-Line Transaction Processing,联机分析处理,采用关系模型进行数据存储,例如ADB MySQL,适合海量数据的计算分析。OLAP(联机事务处理)系统分为MOLAP(多维OLAP)、ROLAP(关系OLAP)和HOLAP(混合型OLAP)三种。 DTS:Data Transmission Ser原创 2020-08-05 17:50:20 · 1138 阅读 · 0 评论 -
阿里云大数据ACP认证学习笔记之——————MaxCompute
基本概念Project:项目,MaxCompute的基本组织单元。 Table:表,分为内部表(数据存储在MaxCompute)和外部表(数据不存储在MaxCompute)。 Function:函数,包括内建函数和UDF。 Instance:实例,SQL、Spark和MapReduce任务再执行时都会被实例化。 Resources:资源,使用UDF和MapReduce需要依赖资源,资源类型:File类型:文件 Table类型:MaxCompute的表 Jar类型:java jar包 Ar原创 2020-08-05 17:48:35 · 1066 阅读 · 0 评论