
大数据
文章平均质量分 50
杜之心
有些问题,需要喝杯茶才能解决。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
pycharm pyspark 加载mysql jar包,查询mysql数据
pyspark 可以通过pip或pycharm 直接安装,在用pyspark连mysql的时候发现报错这个时候要想办法把mysql jar包加载进来,直接看代码原创 2022-07-28 14:53:35 · 1279 阅读 · 3 评论 -
flink-cdc-connector 更改 connector 名字
在使用阿里云托管flink的时候,要从sqlserver实时同步数据到hologress,准备使用flink-cdc 的sqlserver-cdc connector,结果发现阿里云flink里面有个connector 有个名字重复了,而且还不能用,纯纯的bug,只能更改 flink-cdc 的sqlserver-cdc connector的名字,于是我把名字改成了‘flink-sqlserver-cdc’。需要修改的地方如下。改完之后重新编译打包,带上依赖。找到jar包上传上去就可以使用了......原创 2022-06-28 16:29:06 · 541 阅读 · 0 评论 -
intellij idea运行spark local[*]的含义
val spark = SparkSession .builder .appName("StructuredNetworkWordCount") .config("spark.executor.memory", "2048m") .config("spark.driver.memory", "4096m") .config("spark.default.parallelism", "4")// .config("spark.driver.cores", "..原创 2022-05-10 17:52:55 · 1277 阅读 · 0 评论 -
flink scala 项目maven编译 (flink报错:Error: Static methods in interface require -target:jvm-1.8 已解决)
问题:在Flink scala中使用WatermarkStrategy类中的方法maven编译时抛出以下异常[ERROR] /Users/duzhixin/flink-dw/src/main/scala/come/bigdata/etl/FlinkEvent.scala:26: error: Static methods in interface require -target:jvm-1.8[INFO] val eventStream = env.fromSource(kafkaSource,原创 2022-02-17 15:53:39 · 1193 阅读 · 0 评论 -
hiveserver2发生gc问题解决
hiveserver2 发生gc以后导致远程jdbc连接hive会连接超时,解决办法在hive-env.sh中修改HS2Heapsize的大小在hive/bin/hive脚本里修改# to initialize logging for all services# export HADOOP_CLIENT_OPTS="$HADOOP_CLIENT_OPTS -Dlog4j.configurationFile=hive-log4j2.properties "if [ x$SERVICE == x"m原创 2021-11-19 10:56:27 · 1753 阅读 · 0 评论 -
streamx编译,streamx-console初始化启动踩坑
streamx编译先贴个官网链接,配合官网使用。steamx官网官网上有几个环境的准备,版本要对应上,我装的时候特意装了新的maven和nodejs,把原来的nodejs卸载掉,并且在bin目录搞了个软连接,不卸载原来的nodejs,会一直版本不对。编译前改一下streamx/streamx-console/streamx-console-service/src/main/resources/db/migration/V1_2__upgrade_db.sql里面的一个建表语句。ROW_FORMAT=原创 2021-11-17 14:34:42 · 1288 阅读 · 0 评论 -
clickhouse 建kafka引擎表,通过物化视图做etl
1.kafka建表json数据格式:{"id":"10001","ts_server":"1629444027000","params":{"adid":"","click_id":"","aid":""}}set allow_experimental_map_type = 1;CREATE TABLE kafka.dadian_raw( `id` Nullable(String) , `ts_server` Nullable(String) , `原创 2021-09-02 15:07:07 · 1611 阅读 · 2 评论 -
flink-connector-jdbc.jar加入clickhouse驱动支持,并重新编译
1.在dialect package里面新加一个ClickhouseDialect,这个类可以根据MySQLDialect改/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * rega原创 2021-07-09 14:36:58 · 2280 阅读 · 1 评论 -
flink1.13 table api 查询hive数据,及腾讯云cos存储
前言在调试flink table api 查询 hive数据的时候,真的是遇到很多坑,特别是要hive存储的数据是在腾讯云的cos上,而且我是跨集群查询数据,要解决各种依赖和环境问题,下面的代码和pom.xml 已经调试成功,在本地和集群 on yarn都可以运行,本地的时候需要在idea里面加args为dev,集群 on yarn不用加。代码package com.bigdata.etlimport org.apache.flink.table.api.{EnvironmentSettings,原创 2021-06-21 15:03:47 · 1434 阅读 · 0 评论 -
flink1.13.0 部署任务 on yarn 及传参
1.flink standalone刚开始测试的时候可以用这种模式# we assume to be in the root directory of the unzipped Flink distribution# (1) Start Cluster$ ./bin/start-cluster.sh# (2) You can now access the Flink Web Interface on http://localhost:8081# (3) Submit example job原创 2021-05-11 17:54:16 · 2356 阅读 · 0 评论 -
flink1.12 flink-sql client 调试
###flink1.12 下载安装 ###flink-sql把flink-connector-kafka_2.11-1.12.2.jar,flink-json-1.12.2.jar,flink-sql-connector-kafka_2.11-1.12.0.jar,jackson-core-2.9.5.jar,jackson-databind-2.9.5.jar放到$FLINK_HOME/lib里面,不放会class not foundcd $FLINK_HOME#启动yarn session.原创 2021-04-16 14:47:28 · 1053 阅读 · 0 评论 -
flinkx 部署,on yarn模式运行
1.flinkx部署参考官方安装文档,但是会有一些坑wget https://github.com/DTStack/flinkx/blob/1.10_release/docs/quickstart.md2.FlinkX版本需要与Flink版本保持一致,最好小版本也保持一致FlinkX分支Flink版本1.8_releaseFlink1.8.31.10_releaseFlink1.10.11.11_releaseFlink1.11.3不对应在standal原创 2021-04-02 14:21:09 · 1470 阅读 · 2 评论 -
superset sqllab查询文档
目录1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sqllab里面的SQL Editor2.sql Editor 介绍3.在sql编辑框里编写sql,点击run 执行sql语句,在results里查看结果1.点击sql原创 2021-03-18 16:59:21 · 1037 阅读 · 2 评论 -
hive on spark 与 hive on tez共存,tez-ui配置
1.设置tez-ui需要先安装Tomcat1.找到war包因为我安装的是bin所以在安装包中就有tez-ui-0.9.0.war自己编译的话也有生成,在这里不做过多赘述。#2.将tez-ui部署在tomcat#在webapps下创建tez-ui目录mkdir /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui#进入文件cd /usr/local/apache/apache-tomcat-8.5.31/webapps/tez-ui原创 2021-03-08 11:36:30 · 894 阅读 · 0 评论 -
flink1.12安装并配置ha
1.下载安装包,解压https://flink.apache.org/downloads.htmltar zxvf *.tax.gzscala下载 解压 配置 vim /etc/profilehttps://www.scala-lang.org/download/export SCALA_HOME=/usr/local/scala-2.12.13PATH=SCALAHOME/bin:SCALA_HOME/bin:SCALAHOME/bin:JAVA_HOME/bin:HADOOPH原创 2021-03-04 11:50:46 · 959 阅读 · 2 评论 -
atlas 1.2 编译,安装和配置集成hive(依赖外部hbase es)
1.下载 sourcehttp://atlas.apache.org/Downloads.htmlwgethttps://mirrors.tuna.tsinghua.edu.cn/apache/atlas/1.2.0/apache-atlas-1.2.0-sources.tar.gz2.编译安装maven,修改maven setting.xml,添加aliyun 镜像配置阿里云镜像,在下图位置(<mirrors>内配置如下代码),保存退出<mirror>..原创 2021-02-26 18:20:17 · 994 阅读 · 0 评论 -
一文读懂大数据平台——写给大数据开发初学者的话!
经常有初学者会问,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高……首先,如果你确定了想往这个方面发展,先考虑自己的过去从业经历、专业、兴趣是什么。计算机专业——操作系统、硬件、网络、服务器?软件专业——软件开发、编程、写代码?还是数学、统计学专业——对数据和数字特别感兴趣?转载 2017-07-10 10:19:56 · 507 阅读 · 2 评论