- 博客(22)
- 资源 (2)
- 收藏
- 关注
原创 Flink 写入 Doris 常见报错和问题
一些特殊字符,可能也会报字段数量长度不对之类的,但其实如果不对早就报了,大概率是默认 csv 导入,特殊字符导致的问题。这种也是运行一会报错,报错中没有链接,光说 see more in null 的。可以调整一下写入方式,改为json,sink—doris 加个参数。task 一启动就会有明确的报错,直接调整即可。可以通过链接访问拿到报错日志,里面有错误信息。长度之类的问题,自己调整字段长度,或者过滤。一般都是主键、分区键有问题。
2025-01-10 15:43:21
702
原创 docker push jfrog Upload failed, retrying: unknown: Not Found
此类错误是找不到对应仓库导致的。
2024-03-20 12:35:44
266
1
原创 python 线程池/AIO(异步非阻塞)发送http请求示例
分别测试了 多线程、线城市、aio 等模式。AIO 效率最高,详见代码。AIO异步非阻塞IO。
2023-10-25 16:40:30
555
1
原创 python 中类似 scala CaseClass 的能力
python 3.7 以后可以使用 dataclass。python 3.7 以前使用 namedtuple。
2023-07-07 14:08:56
656
1
原创 Airflow 2+ 版本 airlfow.cfg 中特殊字符问题
其中 %40 是 @ 的urlencode ,最前面的 % 是对第二个 % 的转义。airflow 的配置文件中需要写MySQL、MQ的连接信息,很可能出现特殊字符。就以 sql_alchemy 的配置为例吧。
2023-04-24 15:23:49
308
原创 spark on k8s 部署的一点理解
提交后driver后,driver 需要创建pod的权限,这里可以使用的是 serviceAccout 的权限,创建权限以及如何指定serviceAccount 参考 官网RBAC部分。spark on k8s 并不会启动一个常驻的集群,而是再 submit 提交任务时启动对应的pod作为driver 和 executor,任务结束后,这些pod 都会被释放。本地spark-submit 进程 创建pod时会将本地的spark配置作为configMap挂在到pod中。5. 实时任务则一直执行。
2023-04-24 13:46:43
769
原创 IDEA service/DashBoard 不显示 Spring Boot 服务端口号
IDEA service/DashBoard 不显示 Spring Boot 服务端口号的一种可能性
2022-11-18 15:21:59
2003
原创 spark sql json AnalysisException: Found duplicate column(s) in the data schema
spark sql 读取 json 文件 json 中存在 date 和 Date 字段下面的配置默认 False 解析查询不区分大小写,改为 True 之后就可以区分大小写,不报错了spark.conf.set(“spark.sql.caseSensitive”, “true”)...
2020-03-30 18:53:46
3462
1
原创 Java对URL中的中文进行UrlEncode
Java / Scala对URL中的中文进行UrlEncode有些中文或者有空格的URL需要 encode 方能进行请求使用 java.net.URLEncoder 会把所有特殊字符都编码 不可行import java.net.{URL, URLEncoder}val url = "http://www.baidu.com/s=你好"URLEncoder.encode(url, St...
2020-01-03 11:14:22
4817
原创 Failed to execute user defined function(anonfun$2: (array<double>) => double)
报错信息:org.apache.spark.SparkException: Failed to execute user defined function(anonfun$2: (array<double>) => double)Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedA...
2019-02-12 16:42:21
6084
原创 spark 连接 ES java.net.SocketTimeoutException 异常
INFO - Subtask: INFO - Exception in thread "main" java.net.SocketTimeoutExceptionINFO - Subtask: INFO - at org.apache.http.nio.protocol.HttpAsyncRequestExecutor.timeout(HttpAsyncRequestExecutor.java:...
2018-11-29 16:43:01
2849
2
原创 kudu 使用杂记
Kudu 是一个基于 Raft 的分布式存储系统,它致力于融合低延迟写入和高性能分析这两种场景Kudu 提供了 table 的概念。用户可以建立多个 table,每个 table 都有一个预先定义好的 schema。Schema 里面定义了这个 table 多个 column,每个 column 都有名字,类型,是否允许 null 等。一些 columns 组成了 primary key。...
2018-08-10 18:00:49
3913
原创 【笔记】kafka权威指南-常用配置和要点记录
Kafka 的应用场景消息队列 Kafka有更好的吞吐量,内置的分区,冗余及容错性,这让Kafka成为了一个很好的大规模消息处理应用的解决方案。 行为跟踪和日志收集。 敏感操作和日志,都可以写到 kafka 里进行统一,分情况的监控、和分析流式处理,比如,kafka 和 storm 的对接,来实现流式处理 还有其他的需要面向业务需求和场景来具体分析,主要就是利...
2018-05-29 18:27:59
614
原创 MongoDB 导出数据到 kudu
前提:在此使用 impala 作为计算引擎对 kudu 进行查询基本流程:1. impala 创建文本类型 外部表 并指定文件夹和分隔符# 创建临时的外部表,指向刚才写入的文件夹drop table if exists wgj.F_U_wx3cad05dfe85a705d;create external table wgj.F_U_wx3cad05dfe85a705d(id bigint,...
2018-02-24 15:41:31
1235
原创 javaAPI 连接 HDFS 高可用配置
1.引入jar包<properties> <hdfs.version>2.8.2</hdfs.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupI
2018-02-13 15:06:38
3772
原创 Python 使用 Thrift 连接 HBASE 进行操作
在工作中想要使用Python对HBASE进行操作,主要用来获取数据进行分析,HBASE提供了 Thrift 借口,通过查看API 进行了一些的尝试,下面就是使用Python的相关代码,在使用之前需要启动 HBASE的Thrift和安装python的几个模块,在代码一开始的部分已经注明。使用的 Python 2.7API:https://wiki.apache.org/hadoop/Hbase/Th...
2018-01-29 09:14:58
5194
原创 hdfs所有nameNode都是standby,zkfc 进程锁启动不了。
之前因为hbase的问题把zookeeper文件夹下的数据文件给删掉了后来HDFS就就出现竞争锁启动不了,nameNode没有主节点的问题,后来通过重新格式化HDFS的zkfc就好了,不知道为啥,估计是因为有数据信息存在zookeeper里hdfs zkfc -formatZK
2017-11-09 20:27:35
2341
Wind行业分类标准-20170301.xls
2020-04-30
34个省份简称映射的sql文件
2018-10-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人