- 博客(17)
- 资源 (10)
- 收藏
- 关注
原创 Flink Oracle CDC Connector源码解读
flink cdc是在flink的基础上对oracle的数据进行实时采集,底层使用的是debezium框架来实现,debezium使用oracle自带的logminer技术来实现。logminer的采集需要对数据库和采集表添加补充日志,由于oracle18c不支持对数据添加补充日志,所以目前支持的oracle11、12、19三个版本。
2023-04-25 19:32:54
3966
原创 Flink和Spark中文乱码问题
近期开发Flink CDC 读取mysql数据写入到HDFS,发现写入中文乱码,排查了数据库编码和文件编码都没有问题,后来网上查了一些资料,修改flink.conf文件,新增如下内容Spark中文乱码也排查了数据库编码和文件编码没有问题,在程序启动参数中新增–conf spark.executor.extraJavaOptions=“-Dfile.encoding=UTF-8” --conf spark.driver.extraJavaOptions=“-Dfile.encoding=UTF-8”完整
2022-06-08 10:53:52
1826
原创 Flink Oracle CDC写入到HDFS
依赖包引用maven依赖包<oracle.cdc.version>2.2.0</oracle.cdc.version><hadoop.version>2.8.2</hadoop.version><avro.version>1.8.2</avro.version> <dependency> <groupId>org.apache.flink</groupId>
2022-04-08 09:12:24
2638
原创 通过Flink-Sql将Kafka数据写入HDFS
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、创建Hive Catalog二、创建表1.创建Kafka表2.创建Hive表3. 执行同步语句总结参考资料前言近期,公司有需求将Kafka的数据写入到Hive表中,当时看到Flink有一个File Connector可以将文件写入到HDFS,所以开始了解Flink-
2022-04-06 15:41:57
5054
2
原创 spark-DataFrame数据插入mysql性能优化
spark-DataFrame数据插入mysql性能优化简介结果插入mysql源代码解析总结总结简介最近在公司项目有使用spark做数据处理,数据的结果要求写入到mysql或者tidb。spark在做完一系列的rdd操作后得到的结果通过jdbc方式插入到数据,但是插入的数据非常慢。开始研究这一块的代码和寻找性能优化。结果插入mysqlspark给我们做了封装,插入mysql的代码使用非常简...
2018-12-29 11:16:20
3408
4
原创 SparkML-初探-文本分类
Spark机器学习文本分类背景相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析总结背景由于项目组需要对爬虫获取的文本进行归类,最初使用正则表达式按照想到的规则进行解析分类,后来发现这种方式不够灵活,而且不能穷举所有的可能。所以项目组觉得使用最近比较流行的机器学习相关的知识去处理。相关知识分词TF-IDFWord2Vec回归和分类需求描述开发思路代码解析...
2018-11-25 20:33:24
933
原创 Spark ML学习相关资料整理
语义分析的一些方法基于Spark Mllib的文本分类SparkML模型选择(超参数调整)与调优 读懂Word2Vec之Skip-Gram Spark的Ml pipeline 基于java的中文分词工具ANSJ ...
2018-11-15 09:22:35
304
原创 如何编写一个优雅的Shell脚本(三)
如何编写一个优雅的Shell脚本(三)Shell脚本之AWK介绍和总结简介awk语法awk常用命令awk工作介绍awk文件关联awk文件拆分总结Shell脚本之AWK介绍和总结简介awk语法awk常用命令awk工作介绍awk文件关联awk文件拆分总结...
2018-11-10 23:45:13
518
原创 如何编写一个优雅的Shell脚本(二)
简介继上一篇,本文主要描述一个shell脚本的基本组成公共模块## 自定义写日志函数function writelog() { echo "[`date -d '%Y-%m-%d %H:%M:%S'`][$$]: $1" |tess -a $tmplogfile}# 脚本的核心业务程序应该使用该函数去调用,控制程序的运行状态和日志管理function EXESH_CM...
2018-11-04 15:04:08
544
原创 如何编写一个优雅的Shell脚本(一)
简介 shell脚本是用各类命令预先放入到一个文件中,方便一次性执行的一个程序文件,本文简述如何编写一个优雅的shell脚本。使用技术介绍eval命令 可以将一个字符串当作一个命令执行。 CMD="ls -ltr"eval $CMD内置参数变量$$ 获取当前程序进程ID。$# 获取当前程序传入的参数个数,可以使用该内置变量对程序参数做判断...
2018-11-04 08:43:43
1641
转载 Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用
2014-07-21 20:51:10
768
原创 java调用Hbase API 出现org.apache.hadoop.hbase.protobuf.generated.ClientProtos$Result overrides final 错误
java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hbase.client.HConnectionManager.createConnection(HConnectionManager.java:389) at org.apache.hadoop.hbase
2014-07-19 16:51:11
13613
3
get_stock_list.py
2020-09-12
get_stock_klinedata.py
2020-09-12
Hbase中文文档
2014-08-25
spring-data-应用源码
2013-07-24
修改core-render.jar源码让itext中文换行
2013-06-05
plsql将复制的文本格式化为in格式
2012-02-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人