
大数据
汀桦坞
努力不是疲惫憔悴,而是眼里有光
展开
-
Hive鉴权方式说明
当通过JDBC方式访问Hive数据库时,可以通过在连接参数中将“AuthMech”设置为不同的值来使用不同的鉴权方式,如下给出各种鉴权方式的连接串示例 不使用鉴权:在连接参数中将“AuthMech”属性设置为“0” 连接串示例: jdbc:hive2://IPAddress:Port;AuthMech=0 使用Kerbors鉴权:在连接参数中将“AuthMech”属...原创 2019-07-17 15:08:44 · 2383 阅读 · 0 评论 -
Sqoop增量抽取Oracle数据,最近8个小时的数据未被抽取
在使用sqoop增量抽取数据时,在不指定m的情况下,导出日志中可以看到添加了截止时间,但这个时间并不是系统时间,经过多次比较发现,这个时间比当前系统时间早8个小时。因此怀疑是时区问题。检查Oracle中的回话时区和数据库时区:SQL> SELECTSESSIONTIMEZONE FROM DUAL;SESSIONTIMEZONE--------------------------------...原创 2018-06-28 16:20:28 · 1535 阅读 · 0 评论 -
Azkaban的编译与安装
安装环境CentOS 7(使用的虚拟机镜像为CentOS-7-x86_64-DVD-1611.iso),环境是干净的,未做过其它配置安装说明本次安装为solo-server模式,不需要独立部署数据库。安装前提需要Oracle JDK说明:该镜像中自带Open JDK,但是不安装Oracle JDK会造成编辑失败(找不到tool.jar等错误)。因此需要先安装Oracle JDK,并配置相应的环境变...原创 2018-07-03 21:23:26 · 1643 阅读 · 0 评论 -
Shell脚本参数值包含空格的处理
例如输入值为:2018-06-2523:59:59,但是日期和时间有空格,由于shell中将空格作为默认分隔符,因此只能将2018-06-25传递给脚本中的参数,而23:59:59则作为之后的另一个参数值处理。解决方法:在shell脚本以及参数输入时都使用引号:在shell脚本中引用方法为"$2",调用shell脚本时,指定参数为"2018-06-2523:59:59"如下sqoop抽取脚本ora...原创 2018-06-27 19:50:51 · 4613 阅读 · 0 评论 -
查看各类型数据库版本的SQL(Oracle/DB2/SQL Server/PG/MySQL)
Oracle查询语句:select * from v$version;查询结果:BANNEROracle Database 11g Express Edition Release 11.2.0.2.0 - 64bit ProductionPL/SQL Release 11.2.0.2.0 - ProductionCORE 11.2.0.2.0 ProductionTNS for Li...原创 2018-07-02 18:53:36 · 4728 阅读 · 0 评论 -
SQOOP 导出Hive数据到MySQL
基本知识:Sqoop导出的基本用法:https://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_syntax_4 的10. sqoop-export内容摘要:本文主要是对--update-mode参数的用法进行了验证。结论如下:--update-mode模式有两种updateonly(默认)和allowinsertupdateonly:该模式...原创 2018-07-08 12:31:52 · 64960 阅读 · 10 评论 -
Hive时间戳TIMESTAMP使用的限制
在Hive中提供了字段类型TIMESTAMP,但其对应的时间格式为yyyy-MM-dd HH:MM:SS,即通过LOAD命令将文本加载到已创建的表中时,只有满足上述格式的内容才可以被正确解析,否则只能识别为NULL。1. 创建表。create table airline ( Yyear double, Tt double, W double, R double, L do...原创 2018-06-10 16:52:04 · 34276 阅读 · 3 评论 -
Hive查看表的分区字段
查询某个表的分区信息:SHOW PARTITIONS employee;查看某个表是否存在某个特定分区键SHOW PARTITIONS employee PARTITION(country='US') DESCRIBE EXTENDED employee PARTITION(country='US')【SHOW命令的其它用法:展示所有表:SHOW TABLES】查询表信息:DESCRIBE EXT...原创 2018-06-10 16:46:58 · 23410 阅读 · 0 评论 -
HDP SandBox 安装与初步配置
安装虚拟机如下以vmware版本为例说明:1、下载HDP vmware版本sandbox: HDP_2.6.4_vmware_01_02_2018_1325.ova2、将镜像加载到Vmware中: 右键选中下载好的镜像>打开方式>VMware Workstation,然后配置加载路径即可。 这个路径是将来解压后虚拟机的路径,要占用15G左右,不要放在系...原创 2018-06-24 10:56:06 · 8662 阅读 · 3 评论 -
Hive中时间格式的转换
将某种格式的时间转换为Unix时间戳select unix_timestamp('20180531 13:01:01','yyyyMMdd HH:mm:ss') ;将Unix时间戳转换为指定格式的时间SELECT from_unixtime(unix_timestamp(),'yyyy/MM/dd HH:mm:ss');不同时间格式之间的相互转换SELECT from_unixtime(unix_...原创 2018-06-16 14:51:11 · 2169 阅读 · 0 评论 -
Sqoop增量导入验证(Lastmodified)
核心参数–check-column 用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似. 注意:这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时–check-column可以去指定多个列–incremental 用来指定增量导入的模式,两种模式分别为Append和Lastmodified–la...原创 2018-06-23 19:10:16 · 3618 阅读 · 0 评论 -
查看PostgreSQL实际数据存储类型
SELECT col.ordinal_position, col.column_name , col.udt_name , col.character_maximum_length, col.nume...原创 2018-06-22 20:35:40 · 2612 阅读 · 0 评论 -
查看DB2实际数据存储类型
select * from wht_x;SELECT * FROM sysibm.syscolumns WHERE TBNAME like '%WHT_NUM' ORDER BY COLNO ASC;原创 2018-06-22 20:32:40 · 674 阅读 · 0 评论 -
Hive中表名、别名的限制
测试场景 表名 表别名 列别名 列别名为_ × × × 列别名仅包含数字 × × × 列别名以下划线开头 × × × 列别名仅包含数字和下划线,且以数字开头,如1_ √ √ √ 长度超过128 × √ √ × 表示不允许,√表示允许...原创 2018-06-22 20:00:12 · 16131 阅读 · 3 评论 -
SQL Server插入geography、geometry和c_hierarchyid类型数据
SQL Server插入geography类型数据:INSERT INTO wht_g(c_geography)VALUES(geography :: STGeomFromText ('POINT(55.9271035250276 -3.29431266523898)',4326))SQL Server插入geometry类型数据:INSERT INTO wht_g(c_geomet...原创 2018-06-14 20:47:03 · 2877 阅读 · 0 评论 -
SQL Server插入binary类型的数据
Binary数据插入表结构sp_helpwht_b; 也可以执行wht_b; insert into wht_b values(105,CONVERT(binary(30),0x8F6D0D51D96A9664FC1491174A9DAFD67C8B0D2571EB1ABF7EDEC2CCB508EEAA4D7163B4),0);原创 2018-06-14 20:41:22 · 9009 阅读 · 0 评论 -
SQOOP抽取各类型数据库脚本示例
------------MySQL------------导入到HDFSsqoop import --connect jdbc:mysql://localhost:3306/wht --username root --password cloudera --table people --fields-terminated-by ',' --target-dir /user/hive/warehou...原创 2018-06-21 23:26:46 · 2713 阅读 · 0 评论 -
HIVESQL中ROW_NUMBER() OVER语法以及示例
ROW_NUMBER() OVER函数的基本用法 语法:ROW_NUMBER() OVER(PARTITION BY COLUMNORDER BY COLUMN)详解:row_number() OVER (PARTITION BY COL1 ORDERBY COL2)表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(该编号在组内是连续并且唯一的)。场...原创 2018-05-31 11:30:36 · 47922 阅读 · 3 评论 -
wherehows VM使用
1、下载VM镜像:https://pan.baidu.com/s/1qXi2XWg#list/path=%2F2、解压WhereHows-VM.7z.0013、在Vmware中打开VM:在解压目录中双击cloudera-quickstart-vm-5.4.2-0-vmware.vmx4、在Vmware中单击wherehows-vm,可以编辑虚拟机配置,如增大内容,修改网络模式(默认桥接)5...原创 2018-08-03 20:25:42 · 1276 阅读 · 0 评论 -
常见数据库driverClassname 和url
# Properties file with JDBC-related settings.########### HSQLDB ############jdbc.driverClassName=org.hsqldb.jdbcDriver#jdbc.url=jdbc:hsqldb:hsql://localhost:9001/bookstore#jdbc.username=sa#jd...转载 2018-08-07 21:13:15 · 7806 阅读 · 0 评论 -
SAS Viya应用简介
SAS Viya简介SAS Viya是一个支持云计算的内存分析引擎,提供快速、准确和可靠的分析见解。弹性、可扩展和容错处理解决了当今复杂的分析挑战,同时毫不费力地扩展到未来。SAS Viya作为SAS平台的一部分,它提供:更快地处理大量数据和最复杂的分析,包括机器学习、深度学习和人工智能。 支持SAS和其他语言编程的标准化代码库,如Python、R、Java和Lua。 支持云、现场或混...原创 2019-04-25 22:59:19 · 7615 阅读 · 0 评论 -
Spark on Mesos & YARN & Master提交任务的方式
说明:如下内容来自网络和相关书籍原创 2018-11-27 09:47:40 · 382 阅读 · 0 评论 -
在CDH sandbox中安装并测试livy
安装部分1、下载Livy安装包,如livy-0.5.0-incubating-bin.zip2、上传到/opt/livy目录3、解压安装包 unzip livy-0.5.0-incubating-bin.zip4、配置Livy使用需要的spark环境变量 export SPARK_HOME=/usr/lib/spark export HADOOP_CONF_DIR...原创 2018-11-26 16:06:53 · 1292 阅读 · 0 评论 -
Kerberos工作流:一个简单示例
说明:内容来自《Hadoop安全-大数据平台隐私保护》,此处记录仅是便于快速回顾。现在通过一个工作流示例,展示 Kerberos 大概是怎么工作的。首先定义所有出现的组件。EXAMPLE.COM Kerberos 域。Alice 一个系统用户,其 UPN 为 alice@EXAMPLE.COM。myservice server1.example.com 上运行的一个服务,其 ...原创 2018-11-20 09:55:20 · 869 阅读 · 0 评论 -
主从模式在不同场景下的解释
在大数据背景下的概念含义:Leader-Follower:该模式下,Leader和follower一般可以承担相同的工作,但一个时刻真正服务的只有leader,follower只是用来提高整体的可用性,在leader宕机的时候,从follower中竞选出新的leader。例如Zookeeper。Master-Slave: 也称之为Master-worker,两种角色承担不同的工作,在Hado...原创 2018-11-12 14:41:44 · 2389 阅读 · 0 评论 -
伪分布式kafka安装与验证
基本信息安装环境:Centos7 # java -versionopenjdk version "1.8.0_102"OpenJDK Runtime Environment (build 1.8.0_102-b14)OpenJDK 64-Bit Server VM (build 25.102-b14, mixed mode)版本信息:kafka_2.11-2.0.0 zoo...原创 2018-11-13 19:57:30 · 389 阅读 · 0 评论 -
spark 运行自带python示例的方式
命令行直接执行:[root@master spark-2.2.0-bin-hadoop2.7]# bin/spark-submit examples/src/main/python/ml/kmeans_example.py此外,也可以将代码拷贝到pyspark中执行,如下所示:Welcome to ____ __ / __/__ _...原创 2018-10-24 19:24:33 · 3928 阅读 · 0 评论 -
spark节点安装numpy(在线方式,最简洁方式)
在使用pyspark时,MLlib依赖numpy,如下给出安装numpy的步骤:安装pipwget https://bootstrap.pypa.io/get-pip.pypython2环境: python get-pip.pypython3环境: python3 get-pip.py安装numpypython -m pip install numpy之后,启动pyspark...原创 2018-10-24 14:10:45 · 3171 阅读 · 0 评论 -
flink安装以及运行自带wordcount示例(单机版,无hadoop环境)
1、下载安装包到/opt目录2、解压安装包tar zxf flink-1.6.1-bin-hadoop26-scala_2.11.tgz 3、启动flinkcd /opt/flink-1.6.1/bin[root@localhost bin]# ./start-cluster.sh Starting cluster.Starting standalonesession ...原创 2018-10-26 18:13:37 · 9180 阅读 · 1 评论 -
spark dataframe学习记录
文本数据id,name,balance1,Alice,1002,Bob,2003,Charlie,3004,Denis,4005,Edith,500定义case class, 参数名即为表的列名case class Account(id: Int, name: String, balance: Double)从hdfs上的文本创建rddval rdd = sc.textFi...原创 2018-10-26 17:35:00 · 328 阅读 · 0 评论 -
spark rdd读取文件
rdd读取一个文件val rdd = sc.textFile("hdfs://172.20.20.17:9000/tmp/wht/account/accounts.txt").map(_.split(","))rdd读取多个文本文件val rdd = sc.textFile("hdfs://172.20.20.17/tmp/wht/account/accounts.txt,hdfs://...原创 2018-10-26 17:33:45 · 6981 阅读 · 0 评论 -
Spark MLlib垃圾邮件分类示例
本文是对《Spark快速大数据分析》中Spark机器学习相关内容的一个实践(其中主要代码也是来自该文中的示例代码),只是自己准备了数据,并实际运行体验。本文数据下载:https://download.youkuaiyun.com/download/wiborgite/10739730本文使用scala实现,在spark-shell中即可执行,代码如下所示:import org.apache.sp...原创 2018-10-23 19:57:34 · 1884 阅读 · 3 评论 -
Kylo调研总结(二)
Kylo功能介绍Kylo提供服务用于生成Hive表、基于Hadoop中的数据生成schema、执行基于Spark的转换、元数据跟踪、监控feed和SLA策略、发布数据到目标系统。Kylo前端提供的功能模块包括Operations、Feed Manager、Admin。OperationsOperations侧重于运维管理。DashboardDashboard通过仪表盘和列表使用户...原创 2018-10-16 20:40:13 · 5991 阅读 · 2 评论 -
Kylo调研总结(一)
定位Kylo定位于企业级的数据湖管理平台(Data Lake Platform),它是基于Spark和NiFi的开源数据湖编排框架,Kylo提供的主要特性包括数据获取、数据准备和数据发现,并支持元数据管理、数据治理和高级安全特性。厂商信息Kylo是由Teradata天睿公司开源,并被航空、保险、电信、金融服务、银行和零售行业的全球Top N公司所应用。经典场景通过Kylo的GU...原创 2018-10-16 10:12:06 · 8921 阅读 · 3 评论 -
Access denied for user 'root'@'192.168.64.154' (using password: YES)
这是因为当前用户没有访问mysql的权限导致的在mysql中执行:grant all privileges on *.* to root@'%' identified by 'cloudera;就可以访问了。原创 2018-09-13 14:20:31 · 2181 阅读 · 0 评论 -
Wherehows调研总结
1.1 定位Wherehows定位于元数据仓库(a metadata warehouse),而不是数据仓库。它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。区别于一般的数据处理平台,wherehows仅获取、处理元数据,而不涉及对业务数据的处理。1.2 厂商信息Wherehows是由LinkedIn开源,并主要在LinkedIn内部使用。外部应用应该比较少,...原创 2018-09-06 20:59:59 · 13836 阅读 · 11 评论 -
两种数据仓库分层实例
数据仓库分层,目前见到的两种分层:分层一标准的数据仓库分层:ods(临时存储层),pdw(数据仓库层),mid(数据集市层),app(应用层)ods:历史存储层,它和源系统数据是同构的,而且这一层数据粒度是最细的,这层的表分为两种,一种是存储当前需要加载的数据,一种是用于存储处理完后的数据。pdw:数据仓库层,它的数据是干净的数据,是一致的准确的,也就是清洗后的数据,它的数据一般都...原创 2018-08-20 18:20:50 · 3614 阅读 · 0 评论 -
Hive中外部表的alter与drop操作的最低权限要求
Hive中外部表的alter与drop操作的最低权限要求:操作类型 目录权限 数据权限 alter(如修改location) Read 、write 0 Drop Read 0 Select Read Read原创 2018-06-21 17:40:42 · 1286 阅读 · 0 评论 -
SQOOP 导出SQL SERVER中数据
从SQL Server导出数据到HDFSsqoop import --connect 'jdbc:sqlserver://192.168.20.105:1433;databasename=dep' --username sa --password Server2008! --table test_table --fields-terminated-by '\001' --target-dir /...原创 2018-06-13 20:57:47 · 1195 阅读 · 0 评论 -
kafka逻辑示意图以及命令
了解了下kafka的组成,画了个图,便于后面回顾:启动kafkabin/kafka-server-start.sh config/server.properties &启动一个producer:bin/kafka-console-producer.sh --broker-list node3:9092 --sync --topic test启动一个c原创 2017-08-14 19:13:11 · 757 阅读 · 0 评论