- 博客(92)
- 问答 (7)
- 收藏
- 关注
原创 关于SQL中关联条件和筛选条件位置对结果的影响
但是筛选条件放在 ON 中,会早一步筛选,提高运行结果。相对的,在正常的内部关联中,对结果不会有太大结果。起因是在写模型时发现一个模型的结果数据量异常大。以前有想过关联条件和筛选条件会不会影响最终结果。现在看来是会影响的,下面这句话是关键。发现是我之前调整了关联条件导致的。
2025-03-07 15:47:25
151
原创 kettle 导入资源库失败 There was an error while inporting repositry object from an XML file
kettle 导入资源库失败 There was an error while inporting repositry object from an XML file
2022-11-04 11:28:35
652
原创 安装 sqlserver 2008 提示:重新启动计算机失败
安装 sqlserver 2008 R2 时候,最初检测时此处提示未通过,提示重新启动计算机未通过
2022-11-03 15:37:03
2798
原创 day83 Flink Sink集群 运行流程 事件时间
文章目录一、Flink1、Sink1 直接在控制台打印2 连接写入至 mysql3 写至本地文件I know, i know地球另一端有你陪我一、Flink1、Sink可以使用自定义 Sink,需要实现 RichSinkFunction 接口,重写里面的 invoke1 直接在控制台打印package sinkimport org.apache.flink.configuration.Configurationimport org.apache.flink.streami
2022-01-19 22:29:27
2005
原创 day82 Flink 安装 Source 算子
文章目录一、Flink1、Flink 和 Spark 区别有的没的I know, i know地球另一端有你陪我一、FlinkApache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。可以对标 Spark,一个擅于流处理,一个擅于批处理1、Flink 和 Spark 区别应用上:Flink 多用于处理流数据;Spark 多用于处理批数据底层上:Flink 底层是持续流
2022-01-19 15:17:56
1606
原创 项目工具 AZKABAN KYLIN FineBI
文章目录一、AZKABAN1、安装2、使用方法I know, i know地球另一端有你陪我一、AZKABAN一个 JAVA 编写的、开源的,任务调度工具linux 中自带 crontab 的调度工具,但是只能够定时启动而较难处理多个任务调度之间的依赖关系1、安装1 上传解压文件unzip azkaban-solo-server.zip2 修改配置文件中的时区vim conf/azkaban.properties// 修改时区default.timezone.id
2022-01-17 19:35:08
614
原创 day75 saprk 调优
文章目录一、代码优化1、对多次使用的RDD进行缓冲2、使用高性能算子3、广播变量 broadcast4、Kryo优化序列化性能5、数据本地性二、参数调优三、数据倾斜优化1、双重聚合2、将 reduce join 转为 map join3、双重 joinI know, i know地球另一端有你陪我一、代码优化1、对多次使用的RDD进行缓冲使用 cache,注意持久化策略MEMORY_ONLY 和 MEMORY_AND_DISK_SER序列化能够对数据进行压缩,减少数据的占用
2022-01-11 16:55:33
336
原创 day74 Spark - streaming
文章目录一、Spark - streaming1、WordCount2、UpdateStateByKey3、foreachRDD4、模拟带状态算子5、滑动窗口6、稽查布控I know, i know地球另一端有你陪我一、Spark - streaming微批处理,一定时间内将该段时间产生的数据进行批处理,是一种近似的实时处理1、WordCountpackage streamingimport org.apache.spark.streaming.dstream.Receiv
2022-01-11 16:55:17
200
原创 day73 Spark - sql
文章目录一、Spark 执行方式1、spark-submit2、spark shell3、spark-sql二、散碎1、外部链接到 hive 库2、Spark 中的 Map Join(小表广播)3、PageRank零碎I know, i know地球另一端有你陪我一、Spark 执行方式1、spark-submitpackage testimport org.apache.spark.sql.{DataFrame, SparkSession}object Demo6Subm
2022-01-07 20:49:56
1493
原创 day69、70 Spark 架构 常见算子 接着有的没的
文章目录一、一些架构1、Spark 简单架构2、yarn-client3、yarn-cluster二、一些架构I know, i know地球另一端有你陪我一、一些架构1、Spark 简单架构算子会在 Excutor 中的线程池中进行,而算子之外的命令都会在 Driver 中执行2、yarn-client3、yarn-cluster一个较大的区别是 Driver 端启动的位置不一样另一个是日志的打印位置,cluster 不会将日志全部打印在本地(Driver)可以
2022-01-02 20:59:01
1583
原创 day68 Spark core 安装 五大特性 有的没的
文章目录一、基本容器1、Tuple零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、Tuple零碎本地(local)运行 Spark 项目需要在任意位置导入一个新建一个 hadoop / bin 路径bin 下面塞一个 winutils.exe,在环境变量中添加 hadoop 到 HDOOP_HOME可以回避一个报
2021-12-29 22:27:08
1149
原创 day67 Scala 容器 隐式转换
文章目录一、基本容器1、Tuple2、List3、Set4、Map二、隐式转换1、隐式转换方法2、隐式转换变量3、隐式转换类各种小零散碎1、模式匹配(case)2、Null null Nil Nothing None Unit3、Trait零碎I know, i know地球另一端有你陪我一、基本容器Scala 中的容器又类似于 Python 中的容器Tuple List Set Map注意的是,四个基本容器全是不可变的1、TupleTuple 元组:不可变,有序,元素可以重复
2021-12-26 19:47:20
380
原创 day65、66 Scala 面向对象 面向函数
零碎// Any是任意类型的基类// AnyRef:任意引用类型的基类// AnyVal:任意值类型的基类Nothing 无参数B 任意类型返回值Unit 无返回值
2021-12-26 19:46:53
499
原创 day63、64 阿里云 datawork
文章目录一、数据开发 -- DataWorks1、创建表1 从其他数据源中同步2 手动创建表3、业务流程二、运维中心三、数据服务四、连接 MaxCompute 的另两种方法1、odpscmd 客户端2、MaxCompute Studio3、MaxCompute Java五、行列转换(部分)1 explode2 posexplode3 lateral view4 MaxCompute 自定义函数5 Function Stutio 自定义函数零碎I know, i know地球另一端有你陪我
2021-12-22 21:56:59
1381
原创 day 60、61、62 Python Scrapy
文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、选择结构3、循环结构4、文件 IO5、连接 MySQL6、日期转换7、函数8、函数参数的类型二、面向对象1、类三、异常处理I know, i know地球另一端有你陪我一、Python1、数据容器scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36
2021-12-20 21:43:20
306
原创 day 58、59 Python
文章目录一、Python1、数据容器1、元祖 tuple2、列表 list3、集合 set4、字典 dict2、遍历I know, i know地球另一端有你陪我一、Python1、数据容器类似于 java 中的集合,Python 包含四大数据容器元组tuple、列表list、集合set、字典dict1、元祖 tuple特点:1、元素类型可以不唯一2、元素允许重复3、初始化后,其中元素不可修改4、输入输出有序定义:tuple1 = (1,1,1,2,2,3,4,
2021-12-15 21:14:48
807
原创 kettle 一些基础
文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeKettle是一款开源的ETL工具,纯java编写,可以在 Window、Linux、Unix 上运行,绿色无需安装是国外开源 ETL工具,支持数据库、FTP、文件、rest接口、hdfs、hive等平台的灵敏据进行抽取、转换、传输等操作,Java编写跨平台,
2021-12-12 10:12:45
2041
原创 day 56 flume
文章目录一、flumeEventSourceChannelSink二、使用1、spooldirTest2、hbaseLogToHDFS3、httpToLogger总结I know, i know地球另一端有你陪我一、flumeflume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。特点是实时采集Eventfl
2021-12-12 09:18:39
445
原创 day 54 Sqoop
文章目录一、Sqoop1、SQOOP安装准备MySQL数据2、import2.1 MySQLToHDFS2.2 MySQLToHive2.3 MySQLToHBase3、export3.1 HDFSToMySQL4、查看sqoop help5、增量导入**建表**append总结I know, i know地球另一端有你陪我一、SqoopApache开源软件,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递。数据吞吐量大:依赖ha
2021-12-07 21:52:17
2328
原创 day 53 HBase BulkLoading
HBase BulkLoading优点:如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 “Bulk Loading”方法,即HBase提供的HFileOutputFormat类。它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种hdfs内存储的数据格式文件,然后上传至合适位置,即完成巨量数据快速入库的办法。配合mapreduce完成,高效便捷,而且不占用region资源,增添负载。限制:
2021-12-06 19:00:57
1143
原创 day 53 HBase 参数调优
文章目录HBase参数调优什么时候触发 MemStore Flush?什么操作会触发 MemStore 刷写检测?MemStore 刷写策略(FlushPolicy)I know, i know地球另一端有你陪我HBase参数调优hbase.regionserver.handler.count该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的G
2021-12-05 21:12:04
174
原创 day 53 HBase RowKey设计
文章目录1、rowkey长度原则2、rowkey散列原则3、rowkey唯一原则二、热点问题1、加盐2、哈希3、反转时间戳反转其他一些建议I know, i know地球另一端有你陪我HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有三种方式:通过get方式
2021-12-05 16:37:24
98
原创 day 52 HBase phoenix 安装 指令 二级索引
文章目录一、phoenix1、安装2、常用指令3、视图映射3.1、视图映射3.2、表映射二、二级索引1、开启索引支持2、全局索引3、本地索引4、覆盖索引三、Phoenix JDBC总结I know, i know地球另一端有你陪我一、phoenixHbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方
2021-12-05 09:22:17
1311
原创 day 51 hbase 过滤 器布隆过滤器
文章目录一、过滤器1、常见的比较运算符2、常见的比较器BinaryComparatorBinaryPrefixComparatorRegexStringComparatorSubstringComparator3、常见过滤器rowKey过滤器:RowFilter列簇过滤器:FamilyFilter列过滤器:QualifierFilter列值过滤器:ValueFilter4、专用过滤器单列值过滤器:SingleColumnValueFilter列值排除过滤器:SingleColumnValueExcludeF
2021-12-02 22:36:06
1213
原创 day 50 hbase java连接
文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo
2021-12-01 21:17:22
133
原创 day 49 hbase 基础
文章目录一、HBase 系统架构1、Master2、RegionServer3、Region4、Store、Memstore 与 Storefile5、组成部分1 RowKey2 Column Family 、 qualifier3 cell 单元格4 时间戳5 HLog(WAL log)6、读写流程I know, i know地球另一端有你陪我一、HBase 系统架构1、Master为 Region server 分配 region( region 类似hadoop 中的 blo
2021-12-01 21:14:57
357
原创 day 49 hbase 安装 指令
I know, i know地球另一端有你陪我一、HBaseHBase – Hadoop Database是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用 Hadoop HDFS 作为其文件存储系统利用 Hadoop MapReduce 来处理 HBase 中的海量数据利用Zookeeper作为其分布式协同服务主
2021-11-30 19:52:26
617
原创 day 48 hive(SQL)一些习题
文章目录一、窗口函数1、列出至少有一个员工的所有部门2、列出薪金比“SMITH”多的所有员工3、列出所有员工的姓名及其直接上级的姓名4、列出受雇日期早于其直接上级的所有员工5、列出部门名称和这些部门的员工信息,同时列出那些没有员工的部门6、列出所有“CLERK”(办事员)的姓名及其部门名称7、 列出最低薪金大于1500的各种工作8、列出在部门“SALES”(销售部)工作的员工的姓名,假定不知道销售部的部门编号9、列出薪金高于公司平均薪金的所有员工10、列出与“SCOTT”从事相同工作的所有员工11、列出薪金
2021-11-27 22:05:32
1151
原创 day 47 hive 开窗函数(二) 自定义函数
文章目录一、窗口函数1、window as2、with as3、常用函数4、窗口帧二、常用函数1、UDF:一进一出2、UDTF:一进多出总结I know, i know地球另一端有你陪我一、窗口函数1、window asselect *,rank() over(partition by clazz order by score desc) as scorerankfrom students;这里的 over() 中的语句大多相似,可以独立拆下来,用变量名代替window o
2021-11-26 19:50:55
1069
原创 day 46 hive 分区/桶 JDBC 数据类型 开窗函数(连续登陆问题,top N)
文章目录一、分区1、分区2、动态分区3、多级分区(多级子目录)二、分桶三、Hive JDBC四、一些数据类型1、基本数据类型2、时间类型3、复杂数据类型1 array2 map3 struct4、行、列转换1 行转列2 列转行五、开窗函数总结I know, i know地球另一端有你陪我一、分区1、分区实际上是在表的目录下在以分区命名,建子目录作用:能够避免全表扫描,减少MapReduce处理的数据量,提高效率需要在建表时加上分区字段,通常按日期、地域分区,一般不超过三级目录,
2021-11-26 19:50:41
1098
原创 day 45 hive 安装 基础知识 指令
文章目录一、hive1、hive 安装2、hive 测试二、hive二、ZK 搭建1、使用 zk2、java 使用 zk三、搞 hadoop 集群四、完成!I know, i know地球另一端有你陪我一、hiveHadoop 中,查询大多依赖 MapReduce ,慢得要死针对这种不足,人们开发出了专门应对的工具 hiveHive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在
2021-11-24 22:07:00
1132
原创 day 44 搞 hadoop 集群
文章目录一、Zookeeper二、ZK 搭建1、使用 zk2、java 使用 zk二、搞 hadoop 集群I know, i know地球另一端有你陪我一、Zookeeper一个高效的分布式协调服务,特点是可以设置观察者(ZKFC)按时返回节点的当前状态及时做出判断(动物园管理员,名字狂的要死)(想到孙悦)JN负责 Name Node 中,文件路径映射在主节点和备用主节点之间同步ZK可以理解为陪审团,负责根据接收 ZKFC 的信息,决定需不需要替换当前节点一般会设置
2021-11-23 10:05:01
582
原创 day 43、44 Hadoop mapreduce yarn
文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我 cd /usr/local/soft/hadoop-2.7.6/share/mapreduce hadoop jar hadoop-mapreduce-examples-2.7.6.jar wordcount /words.txt 输入路径 输出路径
2021-11-21 23:07:12
799
原创 day 42 Hadoop hdfs
文章目录一、关于 Hadoop 的 hdfs1、hdfs 中的节点2、分布式存储4、java 连接 hdfs5、hdfs 读取流程6、hdfs 写入流程总结I know, i know地球另一端有你陪我一、关于 Hadoop 的 hdfs1、hdfs 中的节点从节点(data node)负责存储数据:数据节点具有储存数据、读写数据的功能,其中存储的数据块(block)比较类似于硬盘中的"扇区"概念,是 HDFS 存储的基本单位主节点(name node)负责指挥其它节点:
2021-11-19 22:59:40
652
空空如也
神通数据库代理服务无法启动的问题
2023-04-26
在函数处理中嵌套使用笛卡尔积的用法
2022-11-17
使用 kettle 进行资源库导入时报错
2022-11-04
kettle中mysql连接JNDI的问题
2022-04-11
hive 里, date_sub 的使用问题
2021-11-26
关于位图中,二级制的存储顺序
2021-11-15
关乎JDBC连接数据库,executeQuery()方法的返回值
2021-11-12
vmware12 centOS7 显示界面字体很小
2021-10-30
关于 hashset 的去重
2021-10-15
关于 hasNextInt() 的用法
2021-10-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人