- 博客(30)
- 收藏
- 关注
原创 FTP 上传文件 报错 200 PORT command successful. Consider using PASV. 553 Could not create file.
一般是在你的 home下的vaftpd 下的所有文件 包括vsftpd 目录。
2023-06-29 13:25:30
471
原创 win10 本地调试hadoop 找不到主机名 主机名映射 Caused by: java.net.UnknownHostException: linux01
1 主机名IP映射打开系统目录:c:/windows/system32/drivers/etc找到hosts文件,打开hosts文件并在最后面添加一条记录192.168.236.11 mynameC:\Windows\System32\drivers\etc\hosts192.168.1.170 master192.168.1.171 slave1192.168.1.172 slave2192.168.1.173 slave3先将文件hosts复制到桌面,再修改好,拖动到原位置替换即可,否
2022-05-07 11:15:53
1059
原创 Spark写入Hudi报分区列乱码问题java.net.URISyntaxException: Illegal character in path at index 46:
hudi分区列乱码问题 :java.lang.RuntimeException: java.net.URISyntaxException: Illegal character in path at index 46: hdfs://linux01:9000/hudi/insertHDFS/ggggggg/ä¸å½/eb4ddae6-9841-469b-9fed-c2375f13d616-0_2-21-28_20210122113859.parquet
2021-01-22 11:47:29
931
1
原创 Spark读取hudi中的数据报Unable to infer schema for Parquet. It must be specified manually.;
Exception in thread "main" org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
2021-01-20 20:37:11
7322
2
原创 新建maven项目创建后添加Scala SDK 无法写scala
1.看是否添加scala的SDK2.什么都准备好了就是不能创建scala文件检查该项解决:右键项目ok!!
2021-01-06 13:29:43
457
1
原创 CentOS6 yum报找不到元数据报【base】时 请检查url连接是否正常
官方停止更新CentOS6之后手工更新yum源【风险提示】Centos6 官方停止更新源无法使用,另外CeIndex of /centos/6.10 https://vault.centos.org/centos/6.10/ 这个网址值得纪念一下,说不定哪一天就404不在了,就成为历史了,关键是现在的年轻人没得这个情怀记忆的。ntOS8明年也将停止维护,继而转向Centos stream 8系统!新的源地址是这个 :https://vault.centos.org/6.10/os/x86..
2020-12-31 20:32:13
239
1
原创 客户端jdbc连接Hive时报无法在/tmp/ 下面创建临时文件 报Couldn‘t create directory /tmp/fa97749d-c952-473a-bdc3-ecce6484d85
无法通过jdbc连接 登录hvie客户端 报Error: Could not open client transport with JDBC Uri: jdbc:hive2://emr-header-1:10000: Failed to open new session: java.lang.RuntimeException: Couldn't create directory /tmp/fa97749d-c952-473a-bdc3-ecce6484d85f_resources (state=08S01,
2020-11-19 10:57:21
1224
原创 Hive修改注释和修改字段类型以及添加字段0: jdbc:hive2://linux01:10000> desc a; +-----------+------------+----------+ |
Hive原始表结构0: jdbc:hive2://linux01:10000> 0: jdbc:hive2://linux01:10000> desc a;+-----------+------------+----------+| col_name | data_type | comment |+-----------+------------+----------+| id | string | || name | .
2020-11-06 10:51:31
260
原创 Hive之like模糊查询
在Mysql中使用的 like '%刘%' 模糊查询 在Hive中不适用 数据源0: jdbc:hive2://linux01:10000> select * from a. . . . . . . . . . . . . . .> ;+-------+---------+---------+| a.id | a.name | a.p_id |+-------+---------+---------+| 1 | a | 1 || 2 .
2020-11-04 16:59:41
9505
原创 .properties文件怎么使用以及ResourceBundle读取中文乱码问题
在.properties文件中 经常会有中文出现,默认的properties文件不支持中文格式的。需要进行转换文件名是 test.propertiesname=小小小age=100 url=91.upiuixan.comd.fdf.com直接 使用ResourceBundle.getBundle方法import java.io.UnsupportedEncodingException;import java.util.ResourceBundle;/** * ...
2020-10-03 14:29:29
557
原创 脚本调度-sqoop导出分区表-判断分区目录是否存在
每天调度sqoop脚本的时候报脚本异常,所以我做了个简单的脚本判断,分区目录是否存在 ,存在就执行sqoop命令,不存在就不执行sqoop,防止因为这个导出的失败而导致整个工作流的失败
2020-09-18 12:26:12
598
原创 Mysql获取时间函数
获取当前时间> select current_date; -- 结果 2020-09-17 获取昨天时间> select SUBDATE('2020-09-17',1); -- 结果 2020-09-16 获取月份> select SUBSTR('2020-09-17', 1 , 7 ); -- 结果 2020-091 --> 代表从哪个角标开始7 -->...
2020-09-17 11:24:16
368
原创 Mysql切割数据函数
Mysql切割数据函数我的数据是调理品-鸡类调理-鸡排类调理品-鸡类调理-迷你肉串调理品-鸡类调理-肉块类调理品-鸡类调理-洋葱圈调理品-鸡类调理-鸡排类我要根据 ‘-’ 这个字符切割 取它的一级分类使用的 函数 是 SUBSTRING_INDEX(str,delim,count) str ==> 需要切割的字符串delim ==> ...
2020-09-16 11:13:05
5606
原创 Hive简易自定义函数详解
Hive简易自定义函数详解简介:Hive自定义函数有三种UDF 一进一出UDAF 多进一出 一般是 聚合操作UDTF 一进多出步骤:1.创建项目2.编辑pom.xml 引入相应的JAR包3.定义一个JAVA类 继承UDF4.重写 evaluate 方法5.根据自己的需求指定传入的参数 以及返回值 。同时编译逻辑代码6.达成jar包 并添加到Hive...
2020-09-14 18:54:16
353
原创 Hive获取当前时间-月初-月末-时间差-某月的天数--函数
Hive时间函数总结获取当前时间0: jdbc:hive2://linux01:10000> select current_date;+-------------+| _c0 |+-------------+| 2020-09-14 |+-------------+获取当前时间戳0: jdbc:hive2://linux01:10000> select ...
2020-09-14 17:43:25
14040
原创 Sqoop 报 :ERROR tool.ExportTool: Error during export: Export job failed!
20/09/14 10:18:18 INFO client.RMProxy: Connecting to ResourceManager at emr-header-1.cluster-171958/172.17.132.216:803220/09/14 10:18:21 INFO input.FileInputFormat: Total input files to process : 120/09/14 10:18:21 INFO input.FileInputFormat: Total inpu.
2020-09-14 10:38:01
3325
1
原创 sqoop使用--query 实现查询语句查询 报Must specify destination with --target-dir.
使用Sqoop 报必须使用 --target-dir 当遇到这个问题时20/09/13 16:36:11 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.Must specify destination with --target-dir.Try --help for usage instructions.s...
2020-09-13 16:59:27
2904
原创 Mysql数据库双向同步技术方案
Mysql数据库双向同步技术方案项目背景:目前使用的数据库的结构,比较复杂,混乱,在加上前期产品设计的业务复杂度高,公司目前扩张较快,现有的数据库结构不能够支持后期的功能业务扩张,又加上公司的技术框架结构,是由PHP、JAVA等语言开发开发,像WMS系统,CRM系统等,是由PHP开发,OMS系统,**数据分析系统, 所以技术选型以及架构比较紊乱,现在已经没办法维护,bug又多,所以要做数据库重构的,同时还要做到和旧数据兼容的问题,并且需要做到新老系统可...
2020-09-09 18:16:09
1474
1
原创 yarn Container 容器的优化
yarn Container 容器的优化我遇到了一个问题:由于服务器是三台4核16G的小集群, 每启动一个容器就会占用 4 个虚拟核 ,这种情况下我的内存够用但是核数不够 ,这样的话 同时提交两个任务 基本上就挂起了 ,我也找了很多种方式最多的就是充分利用cpu和内存yarn资源管理有虚拟核和虚拟内存的概念,可以将虚拟核、虚拟内存调整为物理机的两到三倍,增加任务数量,提高cpu使用率。yarn.nodem...
2020-09-02 16:34:09
717
原创 Canal 首次运行 读取Mysql全量Binlog 并发送到Kafka
首先要有数据库的全量binlog,然后启用一次canal,再关闭。Kafa消费者也需要关闭然后 编辑canal的 conf/example/meta.dat ( 找到对应的meta.dat文件,【将 "position"后面的值改成4, 将"journalName"改成最开始的binlog文件名,timestamp时间戳要改到你想读取数据的位置】找到canal中/canal/conf/canal.properties文件 修改你想从哪个Mysql的logbin文件开始读。/bigda..
2020-08-31 19:42:40
1194
2
原创 Canal解析MySQL 5.7的binlog 发送数据到Kafka中
Canal解析MySQL 5.7的binloghttps://github.com/alibaba/canal1.配置Linux的yum源1.0删除老版本的MySQLxyum remove mysql mysql-serverrm -rf /var/lib/mysql 1.1在命令行中执行如下的命令,添加MySQL5.7的yum源xcat >> /etc/yum.repos.d/mysql57.repo <...
2020-08-31 15:55:09
538
原创 在 E-MapReduce 上使用 Sqoop 工具与数据库无法同步数据网络连接失败
如果使用sqoop进行采集数据必须连接的是内网,外网的话需要你在阿里上单独买外网ip,然后在给你的从节点配置购买的ip地址
2020-08-22 14:26:10
395
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人