
大数据
文章平均质量分 64
该模块记录自己在大数据领域的研究
谷应泰
每天给自己一个希望,努力做好自己,不为明天烦恼,不为昨天叹息.当梦想还在,告诉自己:努力,就总能遇见更好的自己!
展开
-
Flink Table&Sql API使用遇到的问题总结
Flink Table&Sql使用问题原创 2022-08-01 17:12:14 · 1154 阅读 · 0 评论 -
Kylin安装配置
集群规划我安装之前其他软件已经正常的配置,本教程只介绍Kylin安装配置解压包[root@Linux122 servers]# tar -zxvf apache-kylin-3.1.1-bin-hbase1x.tar.gz环境变量添加#Kylinexport KYLIN_HOME=/opt/lagou/servers/kylin-3.1.1export PATH=$PATH:$KYLIN_HOM/bin软连接添加其他组件配置ln -s /opt/lagou/servers/hadoo原创 2022-04-23 23:38:58 · 4149 阅读 · 0 评论 -
Kudu安装运行以及基本用法
由于Kudu对集群时间精准因此需要安装ntp服务一.安装ntp服务[root@Linux121 clickhouse-server]# yum -y install ntp[root@Linux121 clickhouse-server]# vim /etc/ntp.conf 各个节点注释下边几行#server 0.centos.pool.ntp.org iburst#server 1.centos.pool.ntp.org iburst#server 2.centos.pool.ntp.o原创 2022-04-22 00:06:28 · 2198 阅读 · 0 评论 -
ClickHouse安装配置
一.安装官网介绍安装https://clickhouse.com/#quick-startsudo yum install -y yum-utilssudo yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.reposudo yum install -y clickhouse-server clickhouse-clientsudo /etc/init.d/clickhouse-server原创 2022-04-21 14:44:57 · 3359 阅读 · 0 评论 -
Flink安装部署
从官网下载安装包一. Standalone模式https://flink.apache.org/downloads.html#all-stable-releases[root@Linux121 conf]# vim flink-conf.yaml修改主master节点jobmanager.rpc.address: Linux121修改主从节点信息[root@Linux121 conf]# cat mastersLinux121:8081[root@Linux121 conf]# cat w原创 2022-04-03 00:01:02 · 4301 阅读 · 0 评论 -
关于SparkHashJoin等值和不等值连接
这两天在学习join的几种方式,其中提到hash等值和不等值连接,于是进行了概念清晰首先我先说下我第一误区,我等值和不等值难道是只有数字相等吗?不包括字符串其他吗?于是对hash值进行重新研究https://zhuanlan.zhihu.com/p/118148884通过这篇文章我们更进一步了解到hash其实可以针对多种数据类型数据是会有各种格式的,字符串,浮点……那么第二个疑问我们在SparkSql中指的不等值连接是什么?其实是类似 >,< bettwen …and…等操作,有种原创 2022-03-20 13:45:14 · 2502 阅读 · 0 评论 -
SparkSql常见SQL操作
一.行转列操作import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, Row, SparkSession}case class Info(id:String,tags:String)object SQLDemo { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession.builder()原创 2022-03-16 22:59:26 · 1500 阅读 · 0 评论 -
Spark算子综合应用案例
一.WordCount数据hadoop mapreduce yarnhdfs hadoop mapreducemapreduce yarn lagoulagoulagou案例:Scala版def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName(this.getClass.getCanonicalName) conf.setMaster("local[*]") va原创 2022-03-03 21:58:08 · 2557 阅读 · 0 评论 -
Spark几种部署模式
背景:集群部署几种模式集群模式一.Standalone模式1.解压[root@Linux121 servers]# tar -zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz2.配置环境变量export SPARK_HOME=/opt/lagou/servers/spark-2.4.5export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin3.修改配置文件[root@Linux121 sp原创 2022-02-20 17:19:06 · 1734 阅读 · 0 评论 -
Spark,Livy,ES,Griffin单机版安装
一.Spark安装有二进制包,不用编译tar -zxvf spark-2.2.1-bin-hadoop2.7.tgz设置环境变量export SPARK_HOME=/opt/lagou/servers/spark-2.2.1export PATH=$PATH:$SPARK_HOME/bin修改配置文件/opt/lagou/servers/spark-2.2.1/conf/spark-defaults.conf增加如下配置spark.master yarn原创 2022-02-04 00:15:29 · 562 阅读 · 0 评论 -
Atlas编译安装以及Hive元数据导入
一.解压二.修改pom文件 645 <npm-for-v2.version>3.10.8</npm-for-v2.version> 652 <hadoop.version>2.9.2</hadoop.version>三.创建文件夹,手动放入solr,hbase(不然maven下载时间较长)/opt/lagou/servers/apache-atlas-sources-1.2.0/distro[root@Linux1原创 2022-02-02 16:08:20 · 3065 阅读 · 7 评论 -
调度系统Airflow安装
一.卸载 mariadb(卸载和mysql冲突的分支)[root@Linux121 guchenfei]# rpm -qa | grep mariadbmariadb-libs-5.5.68-1.el7.x86_64[root@Linux121 guchenfei]# yum remove mariadb-libs //根据查询结果remove对应的依赖包.......Removed: mariadb-libs.x86_64 1:5.5.68-1.el7原创 2022-01-23 22:39:01 · 2870 阅读 · 2 评论 -
维表拉链表案例
一.数据准备下表为分区增量数据表(userinfo)创建表加载数据用户信息create table test.userinfo( userid string comment '用户编号', mobile string comment '手机号码', regdate string comment '注册日期')comment '用户信息'partitioned by(dt string)row format delimited fields terminated by ','原创 2022-01-14 23:28:58 · 846 阅读 · 0 评论 -
计算引擎Tez安装
1.解压压缩包tar -zxvf apache-tez-0.9.2-bin.tar.gz2.将tez路径下的压缩包放到hdfs上/opt/lagou/servers/tez/share/tez.tar.gzhdfs dfs -mkdir /user/tezhdfs dfs -put tez.tar.gz /user/tez/3.配置hadoop让其他地方知道该路径该路径下新建配置文件tez-site.xml/opt/lagou/servers/hadoop-2.10.1/etc/had原创 2022-01-02 12:30:34 · 1854 阅读 · 0 评论 -
Linux下删除unknown PV
1,vgdisplay 得到vg Name 为centos[root@Linux122 guchenfei]# vgdisplay --- Volume group --- VG Name centos System ID Format lvm2 Metadata Areas 1 Metadata Sequence No 5 VG Access read原创 2021-12-26 18:22:34 · 4683 阅读 · 3 评论 -
hive对json数据处理的三种方式
数据背景hive (ods)> select * from jsont1;OKjsont1.username jsont1.age jsont1.sex jsont1.jsonuser1 18 male {"id":1,"ids":[101,102,103],"total_number":3}user2 28 female {"id":2,"ids":[201,202,203],"total_number":3}user3 38 male {"id":3,"ids":[301,302,30原创 2021-12-18 20:47:18 · 7504 阅读 · 0 评论 -
如何在idea中将maven依赖一同打包成jar
笔者意外发现自己想要的依赖没有打包到jar里,于是研究发现需要在pom文件中添加以下配置才能按照自己pom配置打包.不需要打包的依赖添加如下标记<scope>provided</scope>例如: <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId>原创 2021-12-18 15:06:01 · 975 阅读 · 1 评论 -
Hive: lateral view 用法
lateral view 的语法格式lateral view:LATERAL VIEW udtf (expression) tableAlias AS coluumAlias ( ‘,’ , columnAlias)*fromClause:FROM baseTable (lateralView)*用法描述lateral view 要与UDTF函数一起使用,比如 explode() 函数。这里的UDTF函数是指用户自定义的表生成函数(英文全称:user defined table-generati转载 2021-12-16 23:53:18 · 1007 阅读 · 0 评论 -
kafka源码阅读环境搭建(mac)
**一.准备**gradle:gradle-4.8.1kafka源码包 Kafka-1.0.2scala 2.13.7二.gradle环境搭建解压安装包配置环境变量#GRADLE_HOMEGRADLE_HOME=/Users/guchenfei/Source/gradle-4.8.1export PATH=$PATH:$GRADLE_HOME/bin验证gradle环境gradle -versionguchenfeideMacBook-Pro:~ guchenfei$ grad原创 2021-12-05 14:24:10 · 2063 阅读 · 0 评论 -
开启Kafka监控度量指标以及Eagle使用
一.开启Kafka监控开启JMX工具(Orcle提供)vim kafka-server-start.sh添加export JMX_PORT=9581启动kafka[root@Linux122 bin]# ss -nelp //查看所有网络端口信息[root@Linux122 bin]# ss -nelp | grep 9581u_str LISTEN 0 10 @/tmp/dbus-hhAEH1DO 29581 * 0原创 2021-12-04 00:07:12 · 2521 阅读 · 0 评论 -
Kafka内部主题__consumer_offsets分析
创建主题观察偏移量相关数据[root@Linux122 bin]# kafka-topics.sh --zookeeper Linux122:2181/myKafka --create --topic tp_demo_06 --partitions 5 --replication-factor 1WARNING: Due to limitations in metric names, topics with a period ('.') or underscore ('_') could collide原创 2021-12-01 23:08:17 · 2115 阅读 · 0 评论 -
Kafka基本使用
关于Kafka常见操作1.查看zookeeper保存的消息主题kafka-topics.sh --zookeeper localhost:2181/myKafka --list2.生产者向broker生产消息kafka-console-producer.sh --broker-list 172.16.131.130:9000 --topic topic_1 (其中172.16.131.130:9000是因为我在config/server.properties下配置的listeners=PLAIN原创 2021-11-27 16:44:46 · 2980 阅读 · 0 评论 -
Kafka生产者和消费者以及自定义序列化和反序列化
一.生产者消费者1.生产者生产消息方式同步方式public class Myproducer1 { public static void main(String[] args) { Map<String, Object> configs = new HashMap<>(); configs.put("bootstrap.servers", "Linux122:9092"); configs.put("key.seriali原创 2021-11-21 15:42:25 · 2906 阅读 · 0 评论 -
Hive中定义分割符会使用八进制的ASCII码
Hive中定义分割符会使用八进制的ASCII码问题描述:今天在用Azkaban跑job的时候发现出了如下问题14-11-2021 15:50:00 CST analysis INFO - MismatchedTokenException(24!=347)14-11-2021 15:50:00 CST analysis INFO - at org.antlr.runtime.BaseRecognizer.recoverFromMismatchedToken(BaseRecognizer.java:原创 2021-11-14 16:38:48 · 1739 阅读 · 2 评论