自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 用户画像项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)

2019.9.12项目技能提升1. 用户画像标签用户画像的标签分为事实标签和模型标签,事实标签是统计出来的,源数据中就有的信息; 模型标签是计算出来的,源数据中没有;2. 图计算背景: 同一行出现的id表示属于同一个人,单下一行可能id标识跟上一行不完全一样,但是某个标识保持不变,那么这些表示就应该都隶属于同一个人; 使用图计算可以求出属于同一个用户的所有标识(最大连通子图)目的:生成...

2019-09-15 18:56:38 746

原创 数仓项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)(下)

2019.9.8项目技能提升1.AtlasAtlas是一个元数据管理系统,可以精准地知道一个表的血统和来源历史,hive在进行操作时,会将操作发给kafka,然后atlas会去监听kafka,得到这些信息;2.规则引擎规则引擎的定义:规则id1#导入需要引用的类import cn.logan.Person if $Person.age > 40then $Person...

2019-09-08 20:30:48 331

原创 大数据学习笔记 - hadoop day14 - HIVE 动态分区 函数

2019-09-04 18:57:36 229

原创 大数据学习笔记 - hadoop day13 - 数据类型 建表 分区分桶

2019-09-04 18:56:01 207

原创 大数据学习笔记 - hadoop day12 - HIVE 逐行-分组聚合-窗口运算模型

2019-09-04 18:55:19 209

原创 大数据学习笔记 - hadoop day11 - Phoenix整合 Hbase、 hive 安装 基本操作

2019-09-04 18:54:45 165

原创 数仓项目-DATA_Yiee学习笔记(非开源项目,使用内容请联系我)(上)

2019.8.24技术选型:数据的采集Flume:分布式日志数据汇聚Sqoop:离线批量抽取数据库cannel:实时数据库逐条监听数据的存储hdfsredishbase/elastic searchkafkamysql数据的运算hiveMRSpark core/sql/streamingflink算法基本统计算法图计算Spark Grap...

2019-08-30 12:50:26 1270

原创 数据库和数据仓库的区别

数仓VS数据库数据库通常是一个软件,负责业务数据的实时增删改查(OLTP),业务系统的数据库要求实时响应数据仓库:OLTP的数据在闲时将每天的业务数据导出到另一个数据库(不做OLTP,不连web服务),做一些里显得数据分析(和存储);所以例如Oracle或者Mysql,既可以用来作业务系统数据库,也可以用来做数据仓库,但是用普通数据库做数仓的瓶颈:存储量小;这里引入数仓需要满足的两个条件:...

2019-08-24 19:37:27 504

原创 大数据学习笔记 - hadoop day10 - HBase 生成 协处理器

大数据学习笔记 - hadoop day10 - HBase 生成 协处理器

2019-08-23 13:15:27 132

原创 大数据学习笔记 - hadoop day09 - HBase JavaAPI Bulkloader RowKey设计

大数据学习笔记 - hadoop day09 - HBase JavaAPI Bulkloader RowKey设计

2019-08-23 13:14:03 209

原创 大数据学习笔记 - hadoop day08 - HBase常用命令 JavaAPI 布隆过滤器

大数据学习笔记 - hadoop day08 - HBase常用命令 JavaAPI 布隆过滤器

2019-08-23 13:13:14 286

原创 大数据学习笔记 - hadoop day07 - ZooKeeper 安装部署 常用命令 JAVA API & HBase基本概念 安装部署

大数据学习笔记 - hadoop day07 - ZooKeeper 安装部署 常用命令 JAVA API & HBase基本概念 安装部署

2019-08-23 13:11:37 230

原创 大数据学习笔记 - hadoop day06 - Yarn & Zookeeper 基本概念 选举机制

大数据学习笔记 - hadoop day06 - Yarn & Zookeeper 基本概念 选举机制

2019-08-23 13:10:38 254

原创 关于为什么sparkstreaming在非第一手RDD(一手RDD经过shuffle或repartition后)无法在executor端正常维护偏移量的一点思考

小白理解kafka和task分区号的一一对应关系,文字不够专业,仅用于帮助自己理解,如有错误还请慷慨指正!如果单纯在KAFKARDD.foreachRDD中调用了 rdd.map,在map的函数逻辑中去更新偏移量(即在executor中更新偏移量),是可以的,原因是:Driver端的offsetRanges通过序列化传给了executor,可以在Task中通过TaskContext调用getP...

2019-08-22 12:19:42 430

原创 org.apache.spark.SparkException: Task not serializable

编写spark streaming 程序时遇到org.apache.spark.SparkException: Task not serializable错误,翻译为task没有序列化,经排查,是因为在executor端执行的函数内容中,try catch 的finnaly代码块里调用了stremingcontext的stop方法;这里觉得奇怪是因为正常在finally里面调用ssc.stop(...

2019-08-21 15:05:57 253

原创 大数据学习笔记 - hadoop day05 - MapReduce Join实现 高效TopN实现 Yarn简介

大数据学习笔记 - hadoop day05 - MapReduce Join实现 高效TopN实现 Yarn简介

2019-08-18 19:56:32 187

原创 大数据学习笔记 - hadoop day04 - MapReduce 内部处理数据流程

大数据学习笔记 - hadoop day04 - MapReduce 内部处理数据流程

2019-08-18 19:55:38 360

原创 大数据学习笔记 - hadoop day03 - MapReduce NN-DN通信 NN管理元数据 MR架构

大数据学习笔记 - hadoop day03 - MapReduce NN-DN通信 NN管理元数据 MR架构

2019-08-18 19:54:34 258

原创 大数据学习笔记 - hadoop day02 - HDFS JAVA API 数据读写流程

大数据学习笔记 - hadoop day02 - HDFS JAVA API 数据读写流程

2019-08-18 19:52:43 537

原创 大数据学习笔记 - hadoop day01 - HDFS 大数据前提知识 Hadoop生态 HDFS安装部署启动

大数据学习笔记 - hadoop day01 - HDFS 大数据前提知识 Hadoop生态 HDFS安装部署启动

2019-08-18 19:48:50 338

原创 大数据学习笔记 - scala day 05 - 隐式转换 泛型

大数据学习笔记 - scala day 05 - 隐式转换 泛型

2019-08-14 19:46:18 161

原创 大数据学习笔记 - scala day 04 - 模式匹配

大数据学习笔记 - scala day 05 - 隐式转换 泛型

2019-08-14 19:43:40 203

原创 大数据学习笔记 - scala day 03 - 聚合函数 面向对象

大数据学习笔记 - scala day 03 - 聚合函数 面向对象

2019-08-14 19:41:42 154

原创 大数据学习笔记 - scala day 02 - scala 集合

大数据学习笔记 - scala day 02 - scala 集合

2019-08-14 19:40:07 199

原创 大数据学习笔记 - scala day 01 - 方法和函数

大数据学习笔记 - scala day01 - 方法和函数

2019-08-14 19:36:51 173

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除