
大数据基础
文章平均质量分 65
语兴数据
语兴数据官方号
语兴简介:
语兴数据科技有限公司KOL、前大厂某线数据负责人
展开
-
Hue实现Hive2脚本传参调度
首先准备一个hql文件如 xxx.hql然后设置给定HQL脚本中的动态参数变量名给定动态参数名Schedule中使用Oozie系统变量进行指定参数值原创 2021-05-19 18:26:26 · 465 阅读 · 0 评论 -
sqoop导出脚本范例
其中参数分别为jdbc链接用户名密码mysql表名hive指定的hdfs文件夹更新键:数据插入mysql中根据此键来进行变化 写成sql表示为:update *** set *** = ?? where contract_index=??update-mode:表示更新的类型 有两种 一种是允许插入,另一种是只做更新操作指定分隔符指定换行符最后指定map数即可完成sqoop导出其本质并不是导出Hive表而是导出Hdfs...原创 2020-08-13 14:23:30 · 298 阅读 · 0 评论 -
数据仓库简介
数据仓库构建数仓架构图:数据仓库的三个阶段:第一阶段:使用大量成熟的开源框架,主要是离线批处理为主,外围系统自研能力较弱,数据量和集群资源少。第二阶段:使用开源+自研方式,有自己的方法论和建模体系,有完善的元数据管理,数据质量监控。能有效支持离线实时需求第三阶段: 自研通用一站式大数据处理平台,有完善的数仓理论基础和外围工具,有完善的数据共享机制和权限管理趋势: 工...原创 2019-12-16 17:48:53 · 251 阅读 · 0 评论 -
Canal简介
简介Canal:译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据...原创 2019-11-29 09:40:45 · 1062 阅读 · 0 评论 -
实时数据处理架构之 --Apache Kafka
简介Kafka,分布式消息发布&订阅系统,流处理平台1.发布-订阅流式记录2.存储流式记录,有较好的容错性3.可以在流式记录产生时就进行处理 Kafka Streaming使用场景1.构建实时流数据管道,在系统和应用间有效的获取数据2.构建实时流式应用程序核心APIThe Producer API 允许一个应用程序发布一串流式的数据到一个或者多个Kafka topic...原创 2019-11-29 09:38:32 · 307 阅读 · 0 评论 -
快速搭建大数据环境(CDH)
地址https://www.cloudera.com/downloads/quickstart_vms/5-13.html在构建完成后导入MySQL数据到Hivesqoop import-all-tables \--connect jdbc:mysql://127.0.0.1:3306/retail_db \--username=retail_dba \--password=cl...原创 2019-10-01 14:50:43 · 632 阅读 · 0 评论 -
HBase Java API
HBase Java API1.HBaseConfigUtila.设置一个Hadoop的配置类b.使用set设置zookeeper所在的ip,zookeeper所在端口,以及HBase HMaster节点所在的ip和端口c.使用addSource配置Hadoop配置文件所在的目录和HBase所在文件的目录2.CreateTablea.设置一个config对象,一个connection对...原创 2019-09-22 11:33:09 · 184 阅读 · 0 评论 -
浅谈Hive与Spark数据倾斜
Spark中数据倾斜的现象,原因,后果?答:现象:多数Task任务执行速度较快,少数Task执行时间很长,或者等待很长时间后提示你内存不足,执行失败。原因:1.数据问题a.数据本身key分布不均衡,大量key值为空b.key值设置不合理2.spark的使用问题a.shuffle时,task任务的并发度不够b.设置计算方式可能有错误.后果:1.Spark中的stage执行时间...原创 2019-09-20 21:55:32 · 701 阅读 · 0 评论 -
Spark常用算子分类(自行总结摘要)
Transformation:1.map:对每个rdd中元素进行操作scala> val a = sc.parallelize(1 to 9)a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[12] at parallelize at :24scala> a.collectres9: Array[Int] = A...原创 2019-09-20 21:24:35 · 378 阅读 · 0 评论 -
Hadoop整理
Hadoop整理一台服务器登录到另一台a) Ssh + ip 例如ssh 192.168.56.100b) 登录其他计算机,都要输入密码 免密的目的就是能够方便登录Hadoop 分布式 启动的时候a) 启动首先在namenode启动所有服务b) 因为你datanode 是别的机器,不同服务器,必须有访问权限c) 所以需要设置免密 否则在启动每台节点的时候,都会提示你输入...原创 2019-08-30 08:43:56 · 219 阅读 · 1 评论 -
zeppelin配置
Zepplin安装使用一 下载安装包http://zeppelin.apache.org/download.html选择zeppelin-0.8.1-bin-all.tgz二 上传并解压上传到Linuxtar -zvxf zeppelin-0.8.1-bin-all.tgz -C /root进入目录cd /root/zeppelin-0.8.1-bin-all/-------ok...原创 2019-08-30 08:42:34 · 447 阅读 · 0 评论 -
Zeppelin安装配置
http://pan.baidu.com/s/1kVvcJL9 下载cd ~/zeppelin-0.7.3-bin-all/conf拷贝模板文件cp zeppelin-env.sh.template zeppelin-env.shvi zeppelin-env.sh添加环境变量 jdk目录 hadoop目录export JAVA_HOME=/usr/java/jdk1.7.0_7...原创 2019-07-15 08:46:05 · 330 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---Kibana(可视化展示)
1.安装修改kibana.yml文件中的server.host: “0.0.0.0”指定kibana.yml文件中数据来源为elasticsearch.url: “http://192.168.56.100:9200”2.端口:5601创建index patternManagement>Index Patterns>Create Index Pattern数据探索1.Di...原创 2019-07-09 17:37:42 · 518 阅读 · 0 评论 -
ELK搜索引擎三剑客(存储+检索+分析) ---logstach(日志收集)
logstach安装解压 配环境变量#运行 logstach 必须手写conf配置文件logstach作为日志收集工具1.支持多种数据源输入2.支持多种过滤器3.支持多种数据输出目的地实例1:input {file{path =>["/etc/passwd","/var/log/messages"]start_position =>“beginning”si...原创 2019-07-09 17:36:57 · 741 阅读 · 0 评论 -
必须要掌握的Linux命令总结
Linux命令练习常用目录opt(用户操作目录) usr(用户文件目录) etc(配置文件) var(存放日志)vi编辑器这里拷贝一份profile文件进行练习测试y数字y 复制一段 然后先移动到目的行粘贴dd 删除光标所在的当前行d数字d 删除:光标后的”数字行“x:删除一个字符 相当于删除delshift + x =X 相当于退格 backs...原创 2019-07-01 12:21:44 · 239 阅读 · 0 评论