
大数据学习
文章平均质量分 57
mmalan
这个作者很懒,什么都没留下…
展开
-
八天学会hadoop (1) 数据同步 rpc
1 hadoop 下载hdfs文件到本地拿到hdfs的输入流(把hdfs的文件搬运到内存) 拿到本地文件输出流(java)把内存搬运到本地文件 2 hadoop 数据同步的过程元数据信息指的是文件的大小 名称 修改时间 地址 创建时间等等edits 文件与fsimage文件合并在 secondary namenode里面 3 rpc 底层原理 ...原创 2018-10-25 15:42:27 · 1150 阅读 · 2 评论 -
离线日志分析平台实战 需求分析
java sdk 需求分析由于在本次项目中java sdk的作用主要就是发送支付成功/退款成功的信息给nginx服务器,所有我们这里提供的是一个简单版本的java sdk。Java sdk执行工作流工作流如下所示:(退款类似)分析程序后台事件分析本项目中在程序后台只会出发chargeSuccess事件,本事件的主要作用是发送订单成功的信息给nginx服务器。发送格式...原创 2018-11-06 16:16:29 · 1281 阅读 · 0 评论 -
hive 项目实战(2)
建表创建表这里总共需要创建4张表,明明只有两个数据文件,为什么要创建4张表呢?因为这里创建的表要使用orc的压缩方式,而不使用默认的textfile的方式,orc的压缩方式要想向表中导入数据需要使用子查询的方式导入,即把从另一张表中查询到的数据插入orc压缩格式的表汇中,所以这里需要四张表,两张textfile类型的表user和video,两张orc类型的表user_orc和video_or...原创 2018-11-01 18:54:33 · 656 阅读 · 0 评论 -
hive 项目实战 (1) 谷粒影音需求分析
数据源 video.txt 数据样例:fQShwYqGqsw lonelygirl15 736 People & Blogs 133 151763 3.01 666 765 fQShwYqGqsw LfAaY1p_2Is 5LELNIVyMqo vW6ZpqXjCE4 vPUAf43vc-Q Z...原创 2018-11-01 15:15:17 · 1345 阅读 · 0 评论 -
八天学会hadoop (6) hbase
hbase 基于Hdfs 文件系统 hbase 支持随机高速访问hbase 没有事务特性 hbase不能处理联合关系处理 比如mysql 里面的join hbase优点在于存放非常大的表 百万行 百万列 支持随机高速访问 Hbase 表结构表名->行键->列族(column family)->列名(qualifier)->版本号 具体请查看...原创 2018-10-27 21:34:15 · 249 阅读 · 0 评论 -
八天学会hadoop (5) hadoop 高可用 hive 入门
Hadoop 高可用 想要高可用 必须有两个namenode 一个active 一个standby namenode中的edits文件由第三方qjournal(依赖zookeeper)保存。 hive 流程 首先是create语句 会创建一些元信息存到元数据库 比如表名 创建时间 下次执行查询语句 先经过hive的compiler模块生成java...原创 2018-10-27 21:02:52 · 481 阅读 · 0 评论 -
八天学会hadoop (4) 了解zookeeper
zookeeper 感性认识 存储一些少量数据 数据分布式一致Zookeeper 节点类型Zookeeper 角色客户端读数据可以连接 observer 提高读取速度 但是observer不参与投票过程 Dubbo 与zookeeper的关系 Dubbo建议使用Zookeeper作为服务的注册中心。1. Zo...转载 2018-10-27 11:10:21 · 165 阅读 · 0 评论 -
八天学会hadoop (3) 流量排序统计实战
流量统计实战 先复习一波hadoop shuffle的过程1.map task 过程中会把数据写入到内存中,在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。2. 接着会进行combine过程(如果设置了combiner了的话) combine本身也是一个reducer 会对写入到磁盘的数据...原创 2018-10-26 17:48:56 · 454 阅读 · 0 评论 -
八天学会hadoop(2) yarn流程
hdfs 源码分析FileSystem.get --> 通过反射实例化了一个DistributedFileSystem --> new DFSCilent()把他作为自己的成员变量 在DFSClient构造方法里面,调用了createNamenode,使用了RPC机制,得到了一个NameNode的代理对象,就可以和NameNode进行通信了FileSystem --> Di...原创 2018-10-26 15:43:07 · 435 阅读 · 0 评论 -
推荐系统架构
数据加载 Flume 数据源->数据存储系统source->channel->sink 三个组件构成一个agentchannel 是缓存区 source数据源 sink 数据库存储系统 Sqoop 介绍 ...原创 2018-11-05 19:04:57 · 2144 阅读 · 0 评论