- 博客(25)
- 收藏
- 关注
原创 用户画像项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)
2019.9.12项目技能提升1. 用户画像标签用户画像的标签分为事实标签和模型标签,事实标签是统计出来的,源数据中就有的信息; 模型标签是计算出来的,源数据中没有;2. 图计算背景: 同一行出现的id表示属于同一个人,单下一行可能id标识跟上一行不完全一样,但是某个标识保持不变,那么这些表示就应该都隶属于同一个人; 使用图计算可以求出属于同一个用户的所有标识(最大连通子图)目的:生成...
2019-09-15 18:56:38
746
原创 数仓项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)(下)
2019.9.8项目技能提升1.AtlasAtlas是一个元数据管理系统,可以精准地知道一个表的血统和来源历史,hive在进行操作时,会将操作发给kafka,然后atlas会去监听kafka,得到这些信息;2.规则引擎规则引擎的定义:规则id1#导入需要引用的类import cn.logan.Person if $Person.age > 40then $Person...
2019-09-08 20:30:48
331
原创 数仓项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)(上)
2019.8.24技术选型:数据的采集Flume:分布式日志数据汇聚Sqoop:离线批量抽取数据库cannel:实时数据库逐条监听数据的存储hdfsredishbase/elastic searchkafkamysql数据的运算hiveMRSpark core/sql/streamingflink算法基本统计算法图计算Spark Grap...
2019-08-30 12:50:26
1270
原创 数据库和数据仓库的区别
数仓VS数据库数据库通常是一个软件,负责业务数据的实时增删改查(OLTP),业务系统的数据库要求实时响应数据仓库:OLTP的数据在闲时将每天的业务数据导出到另一个数据库(不做OLTP,不连web服务),做一些里显得数据分析(和存储);所以例如Oracle或者Mysql,既可以用来作业务系统数据库,也可以用来做数据仓库,但是用普通数据库做数仓的瓶颈:存储量小;这里引入数仓需要满足的两个条件:...
2019-08-24 19:37:27
504
原创 大数据学习笔记 - hadoop day10 - HBase 生成 协处理器
大数据学习笔记 - hadoop day10 - HBase 生成 协处理器
2019-08-23 13:15:27
132
原创 大数据学习笔记 - hadoop day09 - HBase JavaAPI Bulkloader RowKey设计
大数据学习笔记 - hadoop day09 - HBase JavaAPI Bulkloader RowKey设计
2019-08-23 13:14:03
209
原创 大数据学习笔记 - hadoop day08 - HBase常用命令 JavaAPI 布隆过滤器
大数据学习笔记 - hadoop day08 - HBase常用命令 JavaAPI 布隆过滤器
2019-08-23 13:13:14
286
原创 大数据学习笔记 - hadoop day07 - ZooKeeper 安装部署 常用命令 JAVA API & HBase基本概念 安装部署
大数据学习笔记 - hadoop day07 - ZooKeeper 安装部署 常用命令 JAVA API & HBase基本概念 安装部署
2019-08-23 13:11:37
230
原创 大数据学习笔记 - hadoop day06 - Yarn & Zookeeper 基本概念 选举机制
大数据学习笔记 - hadoop day06 - Yarn & Zookeeper 基本概念 选举机制
2019-08-23 13:10:38
254
原创 关于为什么sparkstreaming在非第一手RDD(一手RDD经过shuffle或repartition后)无法在executor端正常维护偏移量的一点思考
小白理解kafka和task分区号的一一对应关系,文字不够专业,仅用于帮助自己理解,如有错误还请慷慨指正!如果单纯在KAFKARDD.foreachRDD中调用了 rdd.map,在map的函数逻辑中去更新偏移量(即在executor中更新偏移量),是可以的,原因是:Driver端的offsetRanges通过序列化传给了executor,可以在Task中通过TaskContext调用getP...
2019-08-22 12:19:42
430
原创 org.apache.spark.SparkException: Task not serializable
编写spark streaming 程序时遇到org.apache.spark.SparkException: Task not serializable错误,翻译为task没有序列化,经排查,是因为在executor端执行的函数内容中,try catch 的finnaly代码块里调用了stremingcontext的stop方法;这里觉得奇怪是因为正常在finally里面调用ssc.stop(...
2019-08-21 15:05:57
253
原创 大数据学习笔记 - hadoop day05 - MapReduce Join实现 高效TopN实现 Yarn简介
大数据学习笔记 - hadoop day05 - MapReduce Join实现 高效TopN实现 Yarn简介
2019-08-18 19:56:32
187
原创 大数据学习笔记 - hadoop day04 - MapReduce 内部处理数据流程
大数据学习笔记 - hadoop day04 - MapReduce 内部处理数据流程
2019-08-18 19:55:38
360
原创 大数据学习笔记 - hadoop day03 - MapReduce NN-DN通信 NN管理元数据 MR架构
大数据学习笔记 - hadoop day03 - MapReduce NN-DN通信 NN管理元数据 MR架构
2019-08-18 19:54:34
258
原创 大数据学习笔记 - hadoop day02 - HDFS JAVA API 数据读写流程
大数据学习笔记 - hadoop day02 - HDFS JAVA API 数据读写流程
2019-08-18 19:52:43
537
原创 大数据学习笔记 - hadoop day01 - HDFS 大数据前提知识 Hadoop生态 HDFS安装部署启动
大数据学习笔记 - hadoop day01 - HDFS 大数据前提知识 Hadoop生态 HDFS安装部署启动
2019-08-18 19:48:50
338
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人