
大数据
文章平均质量分 66
大宇进阶之路
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Impala时区问题
做项目的时候发现impala运行UNIX_TIMESTAMP得到的时间戳通过网页工具转换差8个小时,经查询是时区的问题:默认impala配置不是中国的时区,所以在用from_unixtime的时候,有八个小时的时间差。解决方案1:impala启动时加 -use_local_tz_for_unix_timestamp_conversions=true。在cdh里面,impala->配置->mpala Daemo ->Impala Daemon 命令行参数高级配置代码段(安全.原创 2021-03-11 17:12:16 · 1343 阅读 · 0 评论 -
SQL的判断语句:case when语句以及与update set的使用
1、update TD_XXXsetdjyzmdm=null,djyzmsj=null,DLCS= case when DLCS is null then 1 else DLCS+1 endwhere djsj='xxx'2、update `TD_XXX`set`datetime` = 1434567890,`status` = case `id` when 12 Then 1 when 13 Then 2 when 14 Then 1 endwhere `id` in (12,转载 2020-06-08 17:11:43 · 1171 阅读 · 0 评论 -
Azkaban介绍与使用
参考文章:https://blog.youkuaiyun.com/clypm/article/details/79076801azkaban是一个开源的任务调度系统,用于负责任务的调度运行(如数据仓库调度),用以替代linux中的crontab,可以用来解决多个Hadoop(或Spark等)离线计算任务之间的依赖关系问题。•三部分•Relational Database(Mysql)•Azkaban Web Server•Azkaban Executor ServerAzkaban的使用转载 2020-05-26 10:49:21 · 413 阅读 · 0 评论 -
大数据CDH问题解决总结
1.impala-shell连接显示Not connected的问题解决方案:查看Cm界面中,kerbros是默认开启,禁用掉就OK了。同时在impala的配置中关闭LDAP服务即可。或者通过LDAP认证的用户和密码登陆。2.Yarn 中显示datanode节点目录空间不足的问题解决方法:调整Yarn的容器内存和上限。在集群中针对某问题,将资源内存调整为150G和上限300G。3.CM中没有置yarn.nodemanager...原创 2020-05-15 16:18:01 · 1638 阅读 · 0 评论 -
大数据平台CDH的介绍和5.16/6.3版本的搭建
CDH介绍Hadoop主流三大发行版本:1. Apache hadoop 官方社区开源版本2. CDH Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。3. HDP现在cdh已经将hdp收购。Cdh公司在2...原创 2020-05-12 17:02:01 · 12076 阅读 · 2 评论 -
HDFS的学习积累
他人的优秀分享:Hadoop中SecondaryNameNode和HA(高可用)区别原创 2020-05-08 12:29:59 · 197 阅读 · 0 评论 -
Hive创建表指定分隔符、分区表的插入
hive是怎样保存元数据&内部表和外部表的区别:https://www.jianshu.com/p/2ea08633b790Hive的分区表https://www.jianshu.com/p/69efe36d068b原创 2020-05-07 17:43:27 · 4474 阅读 · 0 评论 -
大数据&ETL&kettle学习积累
以下为本博客及其他资料的分享:大数据:Kudu的学习SQL的学习:MySQL的学习,由入门到精通SQL学习分享1之时间命令unix_timestamp、FROM_UNIXTIMESQL学习分享2之分组排序函数ROW_NUMBER() OVER()...原创 2020-04-23 16:20:57 · 1685 阅读 · 0 评论 -
Hbase知识树
删除列族和某一列值:参考:http://c.biancheng.net/view/6535.html原创 2020-04-22 16:04:25 · 798 阅读 · 0 评论 -
PostgreSQL数据目录结构、查询Schema下所有表的大小
参考文章:https://www.jianshu.com/p/cd8c5b988e52initdb 的时候会指定一个 PGDATA 目录,这就是 PostgresQL 存储数据的地方。典型的位置是在 /var/lib/postgres/data 或 /home/postgres/database 目录是最重要的一个目录,放的是每一个 database 的数据。base 目录里的每一...原创 2020-04-21 12:01:12 · 17430 阅读 · 0 评论 -
scp命令不输入密码传输文件的两种方法
方法1:设置两台机器无秘钥访问参考以下文章设置无秘钥登录:设置服务器无秘钥登录方法2:使用expect脚本来自动输入密码expect用于自动化地执行linux环境下的命令行交互任务,例如scp、ssh之类需要用户手动输入密码然后确认的任务。有了这个工具,定义在scp过程中可能遇到的情况,然后编写相应的处理语句,就可以自动地完成scp操作了。下面就是一个使用expect来完成sc...原创 2020-04-20 16:28:18 · 3731 阅读 · 0 评论 -
通过Oracle系统表获取表主键
场景:需要将Oracle的数据抽取至kudu中,首先需要在kudu中对应建立与Oracle数据库对应的表。使用kettle工具设计任务。在表输入组件中,连接Oracle数据库后,SQL语句结尾处不加“;”,否则执行语句时报错。 查询Oracle主键的SQL语句SELECT col.column_namefromall_constraints con,all_cons_colum...原创 2020-04-20 15:30:12 · 2715 阅读 · 0 评论 -
Linux定时任务Crontab命令详解
参考链接:https://www.cnblogs.com/shamo89/p/10160946.html一、crond简介crond 是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程,与windows下的计划任务类似,当安装完成操作系统后,默认会安装此服务工具,并且会自动启动crond进程,crond进程每分钟会定期检查是否有要执行的任务,如果有要执行的任务,则......原创 2020-03-03 14:34:14 · 16629 阅读 · 0 评论 -
KUDU的学习
以下记录自己使用KUDU中的使用问题及解决方法:1. Kudu主键Kudu存在主键,创建表时两种方式标明主键:方式一CREATE TABLE testa(id int,name string,salary double,PRIMARY key (id ))stored as kudu方式二CREATE TABLE testb(id int PRIMARY...原创 2020-04-09 15:48:14 · 1417 阅读 · 0 评论 -
KuduMaster 多节点配置
为了实现高可用性并避免单点故障,应使用多个master服务器创建Kudu集群。以下将介绍现有单master节点集群如何迁移到3个master主节点配置。请注意,主节点数量必须为奇数,操作参考一下官方文档:https://kudu.apache.org/docs/administration.html#_starting_and_stopping_kudu_processes 以下示例中:...原创 2020-04-03 15:40:08 · 2277 阅读 · 0 评论 -
大数据Hive学习
Hive的功能 使用SQL的方式读取分布式存储系统上的大量数据。 数据库:在线事务处理,并发性、事务性和低延迟性。 数据仓库:在线分析处理,有高的延迟。Hive与Hbase区别:1.Hive是数据仓库工具,用于分析大数据;hbase是数据库工具,用于存储NoSQL的数据库。2.Hive因为执行HQL语句,基于MR处理数据时间,...原创 2020-02-20 14:04:08 · 300 阅读 · 0 评论 -
Sqoop同步数据命令
Sqoop介绍Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以使用Sqoop将数据从MySQL或Oracle等关系数据库管理系统(RDBMS)导入Hadoop分布式文件系统(HDFS),在Hadoop MapReduce中转换数据,然后将数据导出回RDBMS,在不使用ETL工具情况下使用sqoop是迁移数据的一个方案。sqoop的数据导入语法:sqoop i...原创 2020-02-20 13:42:37 · 1458 阅读 · 0 评论 -
大数据时间同步之ntp
参考博客:https://blog.youkuaiyun.com/xm_quq/article/details/94736611下面这个就是还没同步好原创 2020-02-20 10:51:12 · 783 阅读 · 0 评论 -
impala-shell Not Connected的问题
原因是因为CDH开启了kerberos或者LDAP权限认证。服务器登录impala-shell时使用命令:impala-shell -i 127.0.0.1:21000 -uusername -l --auth_creds_ok_in_clear备注:-i 集群中任意一台impalad服务器都可以-u 登录用户-l 使用ldap--auth_creds_ok_in_clear...原创 2019-10-07 17:31:17 · 4136 阅读 · 0 评论 -
Hadoop 中的权限问题
1.权限问题发现user1用户居然有对超级用户的目录写的权限,经过查证,发现是hdfs-site.xml中dfs.permissions.enabled参数设置为false,将其设置为true即恢复正常。dfs.permissions.enabled 是否在HDFS中开启权限检查。 true dfs.namenode.acls.enabled 是否在hdfs开启ac...原创 2019-09-05 22:56:49 · 4146 阅读 · 0 评论