- 博客(35)
- 资源 (1)
- 收藏
- 关注
原创 Hive表里的Map类型字段映射Hbase表里的列簇
一、Hbase中创建表create 'user_profile','cf'二、hive里创建Hbaseuser_profile的映射表CREATE EXTERNAL TABLE user_profile ( username STRING, labels map<string, string> )STORED BY 'org.apache.hadoop.hive...
2019-11-15 15:48:25
1196
原创 Phoenix 建立二级索引报错:Mutable secondary indexes must have the hbase.regionserver.wal.codec property
在Phoenix建立二级索引create index test1_name on "test1"("cf1"."name") include("cf1"."age");Error: ERROR 1029 (42Y88): Mutable secondary indexes must have the hbase.regionserver.wal.codec property set to...
2019-11-15 13:08:19
843
原创 cdh中在线安装及使用Phoenix
1.1: 下载CDH 需要parcel包下载地址:http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcelCLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0...
2019-11-12 13:09:51
454
原创 kafka-consumer深度剖析
Producer通过主动Push的方式将消息发布到Broker ,Consumer通过Pull从Broker消费数据,Pull的好处:Consumer按实际处理能力获取相应量的数据;不会被压垮 Broker实现简单 如果处理不好,实时性相对不足Kafka读写机制...
2019-11-08 14:48:33
228
原创 kafka-数据一致性参数详解
Kafka中Producer发送消息到Broker,Broker有三种返回方式,分别为:Noack leader commit成功就ack leader和follower同时commit成功才返回ack。request.required.acksproducer向leader发送数据时,可以通过request.required.acks参数设置数据可靠性的级别:1(默认):这意味...
2019-11-08 11:00:18
502
原创 KafKa-深入解析Leader和Follower数据同步机制(HW,LEO概念)
HW vs LEOLEO(LogEndOffset):表示每个partition的log最后一条Message的位置。HW(HighWatermark):高水位线概念,表示partition各个replicas数据间同步且一致的offset位置,即表示allreplicas已经commit位置,每个Broker缓存中维护此信息,并不断更新。是指consumer能够看到的此partition位置...
2019-11-07 16:50:09
905
原创 Hive数据仓库——事实表Fact、缓慢变化维SCD 应用实例
Fact就是数据仓库里的事实表,把事实表做成一个分区表,事实表一般数据量很大,一般根据日期做分区生成一个订单的事实表================================================= 模拟订单数据==========================模拟第一天数据#模拟订单表数据内容:order_id,user_id,price #维表,事实表1,...
2019-11-06 15:19:00
1190
原创 Hive表的序列化和反序列化SerDe
SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。 反序列化是字节序列恢复为对象的过程。 对象的序列化主要有两种用途:对象的持久化,即把对象转换成字节序列后保存到文件中;对象数据的网络传送。 除了上面两点, hive的序列化的作用还包括:Hive的反序列化是对key/value反序列化成hive tabl...
2019-11-06 15:13:14
1140
1
原创 Linux 性能诊断命令:Awk,Sar,Vmstat 介绍
1.显示内存占用最多的前6个进程ps -aux |awk '{print $2,$3,$4,$11}' |head -1 && ps aux |awk '{print $2,$3,$4,$11}' | sort -k3 -nr |head -62.sar 系统活动报告 sar 1 5 连续5次CPU使用情况截图3.vmstat 1wa栏一般小于40 ,80-90代表磁...
2019-11-05 09:46:00
380
原创 python安装pandas库出现 No module named ‘_lzma’
在利用pip按照以下步骤安装pandas时会报No module named ‘_lzma’ 的错误 sudo pip3 install pytz sudo pip3 install python-dateutil sudo pip3 install pandas 解决方法 yum install xz-devel yum install python...
2019-11-04 16:23:48
1757
原创 Python3报错:ModuleNotFoundError: No module named '_bz2'
1、安装yum install bzip2-devel找到_bz2.cpython-37m-x86_64-linux-gnu.so文件2、修改文件名如果你的python版本是3.6,那就是36m,我的是python3.7,得把文件名改为37m,并拷贝到python3的安装目录mv _bz2.cpython-36m-x86_64-linux-gnu.so _bz2.cpyth...
2019-11-04 16:21:58
374
原创 CentOS 7 升级Python版本为3.x系列
由于python官方已宣布2.x系列即将停止支持,为了向前看,我们升级系统的python版本为3.x系列服务器系统为当前最新的CentOS 7.41.安装前查看当前系统下的python版本号# python -V2.获取python3.x的官方软件包# wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz...
2019-10-30 15:00:53
161
原创 Hadoop集群跑mapreduce任务报错Download and unpack failed
sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000application_1570857844866_0007 failed 2 times due to AM Container for appattempt_15...
2019-10-14 10:45:43
3714
4
原创 Python csv格式项目实战(科技工作者心理健康数据分析 (Mental Health in Tech Survey))
一、项目介绍二、项目代码:import csv# 数据集路径data_path = './survey.csv'def run_main(): """ 主函数 """ male_set = {'male', 'm'} # “男性”可能的取值 female_set = {'female', 'f'} # “女性”可能的取值...
2019-07-22 15:04:32
973
原创 Spark dataframe项目实战(数据清洗和数据描述)
'''1.删除重复数据groupby().count():可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'), (4, 144.5, 5.9, 33, 'M'), (5, 133.2...
2019-07-15 15:40:24
4822
1
原创 Windows 10 Anaconda环境变量及Jupyter Notebook配置
安装好Anaconda3后,常常可能会忘记配置系统环境变量,如果没有正确配置,可能会出现各种错误,正确配置如下:在PATH里加入以下变量:如果要使用Jupyter Notebook,需要到sqlite官方下载对应系统版本的dll文件,把复制到E:\ProgramData\Anaconda3\DLLs目录下面,不然可能会报下面的错误。File "<stdin>", ...
2019-07-15 15:29:36
1247
原创 Spark 读 CSV格式文件 ,报错UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid c
今天在Windows10系统下,跑SparkPython脚本,执行collect()时报下面的错误births.select(s[0]) \ .distinct() \ .rdd \ .map(lambda row: row[0]) \ .collect()尝试把csv文件编码改为utf-8...
2019-07-05 13:03:48
892
原创 Spark java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream
“java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)Vat解决方法:也可通过设置"spark.io.compression.codec","snappy"或其他压缩算法规避。鉴于修改源码重新打包替换较为繁琐,建议设置其他压缩算法...
2019-06-26 14:37:55
1296
原创 CDH5 HIVE整合Hbase配置
除了常规的配置外需要做如下几个操作: 1.将hbase lib下的hbase-*.jar和htrace-core-2.04.jar都拷贝到hive lib下; 2.将hive lib下的hive-hbase-handler-1.1.0-cdh5.4.0.jar 拷贝到 hbase lib下 3.将hbase中的zk配置添加到hive-site.xml中<property>...
2019-01-30 15:38:20
697
原创 Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties
Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties需要对hive-site.xml和hbase-site.xml 增加下面配置信息 <property> <name>hbase.coprocessor.region.class...
2019-01-30 15:30:11
979
转载 phoenix对hbase进行映射
1.查看phoenix的版本,如果版本是4.10之前的,映射关系是根据列来映射的,phoenix可以通过create table(...)来映射2.如果版本是4.10以后的,则只能通过视图来创建,create view(...),才能查询到hbase中的数据...
2019-01-29 09:51:20
976
原创 Phoenx create view Table is read only.
Error: ERROR 505 (42000): Table is read only. (state=42000,code=505)org.apache.phoenix.schema.ReadOnlyTableException: ERROR 505 (42000): Table is read only.at org.apache.phoenix.query.ConnectionQuer...
2019-01-28 16:08:52
2940
原创 CDH5.4.0 部署Phoenix
简介Phoenix最早是saleforce的一个开源项目,后来成为Apache基金的顶级项目Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表、插入数据和对HBase数据进行查询因此Phoenix跟HBase是离不开的,Phoenix的安装也是基于HBase的。在安装Phoenix之前,请确保集群上已经安装了Had...
2019-01-24 17:08:41
295
原创 实战:Hive在内容推荐系统中的应用(二)
3.6 转换成key,value的方式select a.user_id,concat_ws(':',b.kw,cast(count(1) as string)) as kw_w from user_actions as a left outer join( select article_id,kw from articles la...
2019-01-17 15:53:55
346
原创 实战:Hive在内容推荐系统中的应用(一)
一、数据准备1.1.user_action.txt11,101,2018-12-01 06:01:1222,102,2018-12-03 06:01:1333,103,2018-12-04 06:01:1411,104,2018-12-06 06:01:1522,103,2018-12-07 06:01:1633,102,2018-12-12 06:01:1711,101,20...
2019-01-17 15:43:35
798
原创 Hive UDF自定义函数-----------报错解析
一、报如下错误-----Diagnostic Messages for this Task:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {"key":{"reducesi...
2019-01-16 21:29:46
2453
原创 Python MRJob Hadoop中报错解决思路
1)在Hadoop中跑一个Python MRJob脚本报以下错误java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapR...
2019-01-15 10:59:37
818
原创 导出Yarn application日志
执行下面的命令,可以导出application日志:yarn logs -applicationId application_1545890266346_0052 > application.log
2019-01-11 17:09:22
4843
原创 sudo oozie-setup sharelib create -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/ 报错
今天在配置ooize,执行oozie-setup时,报出下面的错误, 因为忽略了下面的配置,导致排错了好长时间,请大家注意!sudo oozie-setup sharelib create -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/oozie-sharelib-yarn.tar.gzby: java.lang.IllegalArgum...
2019-01-06 00:17:33
302
原创 Bad connect ack with firstBadLink as 192.168.123.152:1004
一、今天提交Job任务时,报出下面的一个错误8/12/26 22:18:45 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Bad connect ack with firstBadLink as 192.168.123.152:1004 at org.apache....
2018-12-26 22:49:11
815
原创 Centos Linux 设置 Shangha 时区
ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
2018-12-26 20:28:13
180
原创 HDFS HA+Federation配置
一、HDFS HA+Federation 实现双HA 二、集群规划HOSTNAME IP HDFS节点 zookeeper节点 Journalnode节点 CDH1 192.168.123.101 NS1-namenode1 CDH2 192.168.123.102 NS2-namenode1 Quor...
2018-12-25 09:48:54
451
原创 Hue 操作Hive_over_HBase表提示“SemanticException Error while configuring input job properties”异常
hbase_t是张Hive_over_HBase表(数据存于HBase的表test_hbase中),用户对hbase_t进行操作(如查询),Hive客户端显示执行错误SemanticException Error while configuring input job properties”异常,是因为用户没有获得HBase表的权限。 ...
2018-12-22 17:21:48
918
原创 Rescure模式无法chroot
在对一台RHEL6.6的机器进行修复的时候,使用DVD引导至rescure模式。在执行 chroot /mnt/sysimage/的时候报 chroot: cannot execute /bin/sh: Exec format error 解决方法是# cp /lib64/ld-linux-x86-64-so.2 /lib64/libdl.so.2 /lib64/libc.so...
2018-12-21 23:35:59
3568
1
原创 Linux glibc库被删除 导致系统大部分命令都不能使用,系统不能正常启动
因为升级glibc不成功,将老版本的glibc删除,导致系统大部分命令都不能使用,系统不能正常启动。解决办法如下:系统:CentOS release 6.5 (Final)内核:2.6.32-431.el6.x86_64插入系统盘选择系统救援模式默认会将原操作系统挂在到/mnt/sysimage目录下#chroot /mnt/sysimage //切换到原操作系统#mkdir /mn...
2018-12-21 23:32:37
3648
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人