大数据
文章平均质量分 72
LX旭日东升
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python中 x[:,0]和x[:,1] 理解和实例解析
python中 x[:,0]和x[:,1] 理解和实例解析转载 2022-06-09 18:26:22 · 1027 阅读 · 1 评论 -
DBSCAN算法
DBSCAN算法原创 2022-06-08 21:46:00 · 904 阅读 · 0 评论 -
Roaring Bitmaps结构原理
Roaring Bitmaps结构原理原创 2022-06-05 21:18:40 · 946 阅读 · 0 评论 -
BitMap数据结构和使用场景
bitmap数据结构和使用场景转载 2022-06-05 20:49:57 · 2008 阅读 · 0 评论 -
缓慢变化维
缓慢变化维原创 2022-06-02 15:29:50 · 223 阅读 · 0 评论 -
hive hql去除数据中的空格内容
一、去除空格和tab的方法:1、去除空格用trim(只能将标准的英文空格删掉)2、去除tab用如下方法select regexp_replace(secdomainname,’\s+’,’’) from dwb_cndns_node_secdomain_d where …3、有中文的的空格去除regexp_replace(NVL(column,’’),’[\s]+|[\u3000]+|...原创 2020-02-14 16:12:13 · 12593 阅读 · 0 评论 -
hive shell查询时永久显示字段名和显示当前数据库
一、查询时显示字段名1、进入hive cli后:set hive.cli.print.header=true;2、此时显示的字段名带表名,可读性很差,继续在hive cli中:set hive.resultset.use.unique.column.names=false;3、可以设置hive属性在命令行显示当前数据库:set hive.cli.print.current.db=t...原创 2020-01-12 17:27:42 · 695 阅读 · 0 评论 -
hive的性能调优
hive的性能调优一.严格模式通过设置以下参数开启严格模式: >set hive.mapred.mode=strict;【默认为nonstrict非严格模式】 查询限制: 1.对于分区表,必须添加where查询条件来对分区字段进行条件过滤。 2.order by语句必须包含limit输出限制。 3.限制执行笛卡尔积的查询。二、Hive开启本地模式执行0...原创 2020-01-01 17:27:35 · 248 阅读 · 0 评论 -
Kafka+Spark Streaming如何保证exactly once语义
在Kafka、Storm、Flink、Spark Streaming等分布式流处理系统中(没错,Kafka本质上是流处理系统,不是单纯的“消息队列”),存在三种消息传递语义(message delivery semantics),分别是:at leastonce:每条消息会被收到1次或多次。例如发送方S在超时时间内没有收到接收方R的通知(如ack),或者收到了R的报错,就会不断重发消息直至R...转载 2019-12-10 19:55:07 · 359 阅读 · 0 评论 -
Hive创建表时添加中文注释后乱码问题
Hive创建表时添加COMMENT时的中文注释就会出现乱码,如下:创建表:CREATE TABLE dws_vip_efective_total_year (row_key string,vip_market_id int COMMENT '开通付费会员的商场ID', vip_market_name string COMMENT '开通付费会员的商场名称',vip_efective_to...原创 2019-12-06 16:19:44 · 565 阅读 · 0 评论 -
hive命令行显示当前数据库
在 hive命令行显示当前数据库两种方式。1、可以在hive命令行执行以下语句显示当前数据库:hive> select current_database();2、可以设置hive属性在命令行显示当前数据库:set hive.cli.print.current.db=true;注: 这是当前的session窗口有效;3、永久修改,向hive-site.xml文件添加一下配置:...原创 2019-12-06 11:34:21 · 1041 阅读 · 0 评论 -
Hive自定义UDF、UDAF、UDTF函数实例与区别
Hive中有三种自定义函数分类1、用户定义函数(user-defined function)UDF;2、用户定义聚集函数(user-defined aggregate function,UDAF);3、用户定义表生成函数(user-defined table-generating function,UDTF)。介绍UDF操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于...原创 2019-12-05 20:32:17 · 1482 阅读 · 0 评论
分享