Jason不在家-优快云博客

原创 Flink 写入 Doris 常见报错和问题

一些特殊字符，可能也会报字段数量长度不对之类的，但其实如果不对早就报了，大概率是默认 csv 导入，特殊字符导致的问题。这种也是运行一会报错，报错中没有链接，光说 see more in null 的。可以调整一下写入方式，改为json，sink—doris 加个参数。task 一启动就会有明确的报错，直接调整即可。可以通过链接访问拿到报错日志，里面有错误信息。长度之类的问题，自己调整字段长度，或者过滤。一般都是主键、分区键有问题。

2025-01-10 15:43:21 702

原创 Flink 本地 idea 调试开启 WebUI

Flink 本地 idea 调试开启 WebUI

2024-09-29 08:56:40 543

原创 docker push jfrog Upload failed, retrying: unknown: Not Found

此类错误是找不到对应仓库导致的。

2024-03-20 12:35:44 266 1

原创 python 线程池/AIO（异步非阻塞）发送http请求示例

分别测试了多线程、线城市、aio 等模式。AIO 效率最高，详见代码。AIO异步非阻塞IO。

2023-10-25 16:40:30 555 1

原创 MySQL 备份与恢复脚本

【代码】MySQL 备份与恢复脚本。

2023-09-15 14:32:38 181 1

原创 wsl docker login error

删除 wsl 内的配置文件。

2023-08-25 17:51:12 358 1

原创三分钟搭建在线文件管理器 FileBrowser

【代码】三分钟搭建在线文件管理器 FileBrowser。

2023-08-25 15:11:00 445 1

原创 python 中类似 scala CaseClass 的能力

python 3.7 以后可以使用 dataclass。python 3.7 以前使用 namedtuple。

2023-07-07 14:08:56 656 1

原创 Airflow 2+ 版本 airlfow.cfg 中特殊字符问题

其中 %40 是 @ 的urlencode ，最前面的 % 是对第二个 % 的转义。airflow 的配置文件中需要写MySQL、MQ的连接信息，很可能出现特殊字符。就以 sql_alchemy 的配置为例吧。

2023-04-24 15:23:49 308

原创 spark on k8s 部署的一点理解

提交后driver后，driver 需要创建pod的权限，这里可以使用的是 serviceAccout 的权限，创建权限以及如何指定serviceAccount 参考官网RBAC部分。spark on k8s 并不会启动一个常驻的集群，而是再 submit 提交任务时启动对应的pod作为driver 和 executor，任务结束后，这些pod 都会被释放。本地spark-submit 进程创建pod时会将本地的spark配置作为configMap挂在到pod中。5. 实时任务则一直执行。

2023-04-24 13:46:43 769

原创 IDEA service/DashBoard 不显示 Spring Boot 服务端口号

IDEA service/DashBoard 不显示 Spring Boot 服务端口号的一种可能性

2022-11-18 15:21:59 2003

原创 spark sql json AnalysisException: Found duplicate column(s) in the data schema

spark sql 读取 json 文件 json 中存在 date 和 Date 字段下面的配置默认 False 解析查询不区分大小写，改为 True 之后就可以区分大小写，不报错了spark.conf.set(“spark.sql.caseSensitive”, “true”)...

2020-03-30 18:53:46 3462 1

原创 Java对URL中的中文进行UrlEncode

Java / Scala对URL中的中文进行UrlEncode有些中文或者有空格的URL需要 encode 方能进行请求使用 java.net.URLEncoder 会把所有特殊字符都编码不可行import java.net.{URL, URLEncoder}val url = "http://www.baidu.com/s=你好"URLEncoder.encode(url, St...

2020-01-03 11:14:22 4817

原创 Failed to execute user defined function(anonfun$2: (array<double>) => double)

报错信息：org.apache.spark.SparkException: Failed to execute user defined function(anonfun$2: (array<double>) => double)Caused by: java.lang.ClassCastException: scala.collection.mutable.WrappedA...

2019-02-12 16:42:21 6084

原创 spark 连接 ES java.net.SocketTimeoutException 异常

INFO - Subtask: INFO - Exception in thread "main" java.net.SocketTimeoutExceptionINFO - Subtask: INFO - at org.apache.http.nio.protocol.HttpAsyncRequestExecutor.timeout(HttpAsyncRequestExecutor.java:...

2018-11-29 16:43:01 2849 2

原创 kudu 使用杂记

Kudu 是一个基于 Raft 的分布式存储系统，它致力于融合低延迟写入和高性能分析这两种场景Kudu 提供了 table 的概念。用户可以建立多个 table，每个 table 都有一个预先定义好的 schema。Schema 里面定义了这个 table 多个 column，每个 column 都有名字，类型，是否允许 null 等。一些 columns 组成了 primary key。...

2018-08-10 18:00:49 3913

原创【笔记】kafka权威指南-常用配置和要点记录

Kafka 的应用场景消息队列 Kafka有更好的吞吐量，内置的分区，冗余及容错性，这让Kafka成为了一个很好的大规模消息处理应用的解决方案。行为跟踪和日志收集。敏感操作和日志，都可以写到 kafka 里进行统一，分情况的监控、和分析流式处理，比如，kafka 和 storm 的对接，来实现流式处理还有其他的需要面向业务需求和场景来具体分析，主要就是利...

2018-05-29 18:27:59 614

原创 MongoDB 导出数据到 kudu

前提：在此使用 impala 作为计算引擎对 kudu 进行查询基本流程：1. impala 创建文本类型外部表并指定文件夹和分隔符# 创建临时的外部表，指向刚才写入的文件夹drop table if exists wgj.F_U_wx3cad05dfe85a705d;create external table wgj.F_U_wx3cad05dfe85a705d(id bigint,...

2018-02-24 15:41:31 1235

原创 javaAPI 连接 HDFS 高可用配置

1.引入jar包<properties> <hdfs.version>2.8.2</hdfs.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupI

2018-02-13 15:06:38 3772

原创 Python 使用 Thrift 连接 HBASE 进行操作

在工作中想要使用Python对HBASE进行操作，主要用来获取数据进行分析，HBASE提供了 Thrift 借口，通过查看API 进行了一些的尝试，下面就是使用Python的相关代码，在使用之前需要启动 HBASE的Thrift和安装python的几个模块，在代码一开始的部分已经注明。使用的 Python 2.7API：https://wiki.apache.org/hadoop/Hbase/Th...

2018-01-29 09:14:58 5194

原创关于Spark 和 scala 版本冲突的问题

Spark 和Scala 版本冲突问题

2017-12-06 23:01:57 11968

原创 hdfs所有nameNode都是standby，zkfc 进程锁启动不了。

之前因为hbase的问题把zookeeper文件夹下的数据文件给删掉了后来HDFS就就出现竞争锁启动不了，nameNode没有主节点的问题，后来通过重新格式化HDFS的zkfc就好了，不知道为啥，估计是因为有数据信息存在zookeeper里hdfs zkfc -formatZK

2017-11-09 20:27:35 2341

Wind行业分类标准-20170301.xls

Wind行业分类标准 20170301 版， 11 个一级行业，24个二级行业， 69 个三级行业，161四级行业包含行业介绍、调整历史、以及多种组合形式的，方便导出 csv、组成字典等

2020-04-30

34个省份简称映射的sql文件

将全国三十四个省及直辖市的简称进行映射，通过sql转出，mysql 可直接执行将全国三十四个省及直辖市的简称进行映射，通过sql转出，mysql 可直接执行

2018-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人