大而话之-Big Data-优快云博客

原创 Hive表里的Map类型字段映射Hbase表里的列簇

一、Hbase中创建表create 'user_profile','cf'二、hive里创建Hbaseuser_profile的映射表CREATE EXTERNAL TABLE user_profile ( username STRING, labels map<string, string> )STORED BY 'org.apache.hadoop.hive...

2019-11-15 15:48:25 1196

原创 Phoenix 建立二级索引报错：Mutable secondary indexes must have the hbase.regionserver.wal.codec property

在Phoenix建立二级索引create index test1_name on "test1"("cf1"."name") include("cf1"."age");Error: ERROR 1029 (42Y88): Mutable secondary indexes must have the hbase.regionserver.wal.codec property set to...

2019-11-15 13:08:19 843

原创 cdh中在线安装及使用Phoenix

1.1：下载CDH 需要parcel包下载地址：http://archive.cloudera.com/cloudera-labs/phoenix/parcels/latest/CLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0.000-el7.parcelCLABS_PHOENIX-4.7.0-1.clabs_phoenix1.3.0.p0...

2019-11-12 13:09:51 454

原创 kafka-consumer深度剖析

Producer通过主动Push的方式将消息发布到Broker ，Consumer通过Pull从Broker消费数据，Pull的好处：Consumer按实际处理能力获取相应量的数据；不会被压垮 Broker实现简单如果处理不好，实时性相对不足Kafka读写机制...

2019-11-08 14:48:33 228

原创 kafka-数据一致性参数详解

Kafka中Producer发送消息到Broker，Broker有三种返回方式，分别为：Noack leader commit成功就ack leader和follower同时commit成功才返回ack。request.required.acksproducer向leader发送数据时，可以通过request.required.acks参数设置数据可靠性的级别：1（默认）：这意味...

2019-11-08 11:00:18 502

原创 KafKa-深入解析Leader和Follower数据同步机制（HW，LEO概念）

HW vs LEOLEO（LogEndOffset）：表示每个partition的log最后一条Message的位置。HW（HighWatermark）：高水位线概念，表示partition各个replicas数据间同步且一致的offset位置，即表示allreplicas已经commit位置，每个Broker缓存中维护此信息，并不断更新。是指consumer能够看到的此partition位置...

2019-11-07 16:50:09 905

原创 Hive数据仓库——事实表Fact、缓慢变化维SCD 应用实例

Fact就是数据仓库里的事实表，把事实表做成一个分区表，事实表一般数据量很大，一般根据日期做分区生成一个订单的事实表================================================= 模拟订单数据==========================模拟第一天数据#模拟订单表数据内容：order_id,user_id,price #维表，事实表1,...

2019-11-06 15:19:00 1190

原创 Hive表的序列化和反序列化SerDe

SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。反序列化是字节序列恢复为对象的过程。对象的序列化主要有两种用途：对象的持久化，即把对象转换成字节序列后保存到文件中；对象数据的网络传送。除了上面两点， hive的序列化的作用还包括：Hive的反序列化是对key/value反序列化成hive tabl...

2019-11-06 15:13:14 1140 1

原创 Linux 性能诊断命令：Awk,Sar,Vmstat 介绍

1.显示内存占用最多的前6个进程ps -aux |awk '{print $2,$3,$4,$11}' |head -1 && ps aux |awk '{print $2,$3,$4,$11}' | sort -k3 -nr |head -62.sar 系统活动报告 sar 1 5 连续5次CPU使用情况截图3.vmstat 1wa栏一般小于40 ，80-90代表磁...

2019-11-05 09:46:00 380

原创 python安装pandas库出现 No module named ‘_lzma’

在利用pip按照以下步骤安装pandas时会报No module named ‘_lzma’ 的错误 sudo pip3 install pytz sudo pip3 install python-dateutil sudo pip3 install pandas 解决方法 yum install xz-devel yum install python...

2019-11-04 16:23:48 1757

原创 Python3报错：ModuleNotFoundError: No module named '_bz2'

1、安装yum install bzip2-devel找到_bz2.cpython-37m-x86_64-linux-gnu.so文件2、修改文件名如果你的python版本是3.6，那就是36m，我的是python3.7，得把文件名改为37m，并拷贝到python3的安装目录mv _bz2.cpython-36m-x86_64-linux-gnu.so _bz2.cpyth...

2019-11-04 16:21:58 374

原创 CentOS 7 升级Python版本为3.x系列

由于python官方已宣布2.x系列即将停止支持，为了向前看，我们升级系统的python版本为3.x系列服务器系统为当前最新的CentOS 7.41.安装前查看当前系统下的python版本号# python -V2.获取python3.x的官方软件包# wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz...

2019-10-30 15:00:53 161

原创 Hadoop集群跑mapreduce任务报错Download and unpack failed

sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000application_1570857844866_0007 failed 2 times due to AM Container for appattempt_15...

2019-10-14 10:45:43 3714 4

原创 Python csv格式项目实战(科技工作者心理健康数据分析 (Mental Health in Tech Survey))

一、项目介绍二、项目代码：import csv# 数据集路径data_path = './survey.csv'def run_main(): """ 主函数 """ male_set = {'male', 'm'} # “男性”可能的取值 female_set = {'female', 'f'} # “女性”可能的取值...

2019-07-22 15:04:32 973

原创 Spark dataframe项目实战（数据清洗和数据描述)

'''1.删除重复数据groupby().count()：可以看到数据的重复情况'''df = spark.createDataFrame([ (1, 144.5, 5.9, 33, 'M'), (2, 167.2, 5.4, 45, 'M'), (3, 124.1, 5.2, 23, 'F'), (4, 144.5, 5.9, 33, 'M'), (5, 133.2...

2019-07-15 15:40:24 4822 1

原创 Windows 10 Anaconda环境变量及Jupyter Notebook配置

安装好Anaconda3后，常常可能会忘记配置系统环境变量,如果没有正确配置，可能会出现各种错误，正确配置如下：在PATH里加入以下变量:如果要使用Jupyter Notebook，需要到sqlite官方下载对应系统版本的dll文件，把复制到E:\ProgramData\Anaconda3\DLLs目录下面，不然可能会报下面的错误。File "<stdin>", ...

2019-07-15 15:29:36 1247

原创 Spark 读 CSV格式文件，报错UnicodeDecodeError: 'utf8' codec can't decode byte 0xca in position 17: invalid c

今天在Windows10系统下，跑SparkPython脚本，执行collect()时报下面的错误births.select(s[0]) \ .distinct() \ .rdd \ .map(lambda row: row[0]) \ .collect()尝试把csv文件编码改为utf-8...

2019-07-05 13:03:48 892

原创 Spark java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream

“java.lang.NoSuchMethodError: net.jpountz.lz4.LZ4BlockInputStream.<init>(Ljava/io/InputStream;Z)Vat解决方法：也可通过设置"spark.io.compression.codec","snappy"或其他压缩算法规避。鉴于修改源码重新打包替换较为繁琐，建议设置其他压缩算法...

2019-06-26 14:37:55 1296

原创 CDH5 HIVE整合Hbase配置

除了常规的配置外需要做如下几个操作： 1.将hbase lib下的hbase-*.jar和htrace-core-2.04.jar都拷贝到hive lib下； 2.将hive lib下的hive-hbase-handler-1.1.0-cdh5.4.0.jar 拷贝到 hbase lib下 3.将hbase中的zk配置添加到hive-site.xml中<property&gt...

2019-01-30 15:38:20 697

原创 Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties

Hive 查询Hbase外部表数据 SemanticException Error while configuring input job properties需要对hive-site.xml和hbase-site.xml 增加下面配置信息 <property> <name>hbase.coprocessor.region.class...

2019-01-30 15:30:11 979

转载 phoenix对hbase进行映射

1.查看phoenix的版本，如果版本是4.10之前的，映射关系是根据列来映射的，phoenix可以通过create table(...)来映射2.如果版本是4.10以后的，则只能通过视图来创建,create view(...),才能查询到hbase中的数据...

2019-01-29 09:51:20 976

原创 Phoenx create view Table is read only.

Error: ERROR 505 (42000): Table is read only. (state=42000,code=505)org.apache.phoenix.schema.ReadOnlyTableException: ERROR 505 (42000): Table is read only.at org.apache.phoenix.query.ConnectionQuer...

2019-01-28 16:08:52 2940

原创 CDH5.4.0 部署Phoenix

简介Phoenix最早是saleforce的一个开源项目，后来成为Apache基金的顶级项目Phoenix是构建在HBase上的一个SQL层，能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表、插入数据和对HBase数据进行查询因此Phoenix跟HBase是离不开的，Phoenix的安装也是基于HBase的。在安装Phoenix之前，请确保集群上已经安装了Had...

2019-01-24 17:08:41 295

原创实战：Hive在内容推荐系统中的应用（二）

3.6 转换成key,value的方式select a.user_id,concat_ws(':',b.kw,cast(count(1) as string)) as kw_w from user_actions as a left outer join( select article_id,kw from articles la...

2019-01-17 15:53:55 346

原创实战：Hive在内容推荐系统中的应用（一）

一、数据准备1.1.user_action.txt11,101,2018-12-01 06:01:1222,102,2018-12-03 06:01:1333,103,2018-12-04 06:01:1411,104,2018-12-06 06:01:1522,103,2018-12-07 06:01:1633,102,2018-12-12 06:01:1711,101,20...

2019-01-17 15:43:35 798

原创 Hive UDF自定义函数-----------报错解析

一、报如下错误-----Diagnostic Messages for this Task:Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row (tag=0) {"key":{"reducesi...

2019-01-16 21:29:46 2453

原创 Python MRJob Hadoop中报错解决思路

1）在Hadoop中跑一个Python MRJob脚本报以下错误java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapR...

2019-01-15 10:59:37 818

原创导出Yarn application日志

执行下面的命令，可以导出application日志:yarn logs -applicationId application_1545890266346_0052 > application.log

2019-01-11 17:09:22 4843

原创 sudo oozie-setup sharelib create -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/ 报错

今天在配置ooize，执行oozie-setup时，报出下面的错误，因为忽略了下面的配置，导致排错了好长时间，请大家注意！sudo oozie-setup sharelib create -fs hdfs://cdh1:8020 -locallib /usr/lib/oozie/oozie-sharelib-yarn.tar.gzby: java.lang.IllegalArgum...

2019-01-06 00:17:33 302

原创 Bad connect ack with firstBadLink as 192.168.123.152:1004

一、今天提交Job任务时，报出下面的一个错误8/12/26 22:18:45 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.io.IOException: Bad connect ack with firstBadLink as 192.168.123.152:1004 at org.apache....

2018-12-26 22:49:11 815

原创 Centos Linux 设置 Shangha 时区

ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

2018-12-26 20:28:13 180

原创 HDFS HA+Federation配置

一、HDFS HA+Federation 实现双HA 二、集群规划HOSTNAME IP HDFS节点 zookeeper节点 Journalnode节点 CDH1 192.168.123.101 NS1-namenode1 CDH2 192.168.123.102 NS2-namenode1 Quor...

2018-12-25 09:48:54 451

原创 Hue 操作Hive_over_HBase表提示“SemanticException Error while configuring input job properties”异常

hbase_t是张Hive_over_HBase表（数据存于HBase的表test_hbase中），用户对hbase_t进行操作（如查询），Hive客户端显示执行错误SemanticException Error while configuring input job properties”异常，是因为用户没有获得HBase表的权限。 ...

2018-12-22 17:21:48 918

原创 Rescure模式无法chroot

在对一台RHEL6.6的机器进行修复的时候，使用DVD引导至rescure模式。在执行 chroot /mnt/sysimage/的时候报 chroot: cannot execute /bin/sh: Exec format error 解决方法是# cp /lib64/ld-linux-x86-64-so.2 /lib64/libdl.so.2 /lib64/libc.so...

2018-12-21 23:35:59 3568 1

原创 Linux glibc库被删除导致系统大部分命令都不能使用，系统不能正常启动

因为升级glibc不成功，将老版本的glibc删除，导致系统大部分命令都不能使用，系统不能正常启动。解决办法如下：系统：CentOS release 6.5 (Final)内核：2.6.32-431.el6.x86_64插入系统盘选择系统救援模式默认会将原操作系统挂在到/mnt/sysimage目录下#chroot /mnt/sysimage //切换到原操作系统#mkdir /mn...

2018-12-21 23:32:37 3648

大而话之-Big Data