- 博客(131)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 使用datax将mysql数据抽取到hive分区表无数据
今天遇到一个问题,使用datax将mysql数据抽取到hive的分区表中,抽取完后没有数据,也不报错。使用datax抽取数据到hdfs(其实就是hive)导入之后,假如查询没有数据,使用修复语句修复这个表。具体是这样的,先常见ods层的表。
2025-11-24 21:33:29
152
原创 datagrip中执行sparksql插入语句报:java.io.IOException: Filesystem closed
【代码】datagrip中执行sparksql插入语句报:java.io.IOException: Filesystem closed。
2025-11-18 21:19:10
104
原创 geohash入门指南
在地球经纬度范围内,不断通过二分来划分矩形范围,通过观察gps坐标点所落的范围,来反复生成0/1二进制码。Geohash编码是一种地理位置编码技术,它可将一个gps坐标(含经、纬度)点,转化为一个字符串;gps坐标 转码成 geohash编码,这个算法不需要自己手写,有现成的工具包。通过编码后得到的字符串,表达的是:包含被编码gps坐标点的一个矩形范围;字符串长度越长,表达的精度越高,矩形范围越小,越逼近原gps坐标点;相反,长度越短,表达的精度越低,矩形范围越大;GEOHASH码的精度。
2025-11-15 22:27:22
205
原创 flume抽取kafka数据到kafka,数据无法从topicA抽取到topicB
也就是说如果想把结果发送topicB, 可以在event的header中添加 topic=topicB,
2025-11-15 22:22:02
459
原创 spark on hive中,spark远程连接创建数据库路径错误问题的解决方案
首先启动 sparksql 的远程服务:start-thriftserver 服务。使用datagrip 重新连接一下,记得刷新一下连接。修改spark下的hive-site.xml。
2025-11-12 21:09:49
184
原创 sparksql远程服务thriftserver.sh启停脚本
最近做项目的时候,经常会开启和关闭spark的远程服务,thriftserver,其实这个服务和hive的hiveserver2服务很像,不妨照着试着修改一下吧。在/usr/local/bin 下创建一个脚本:spark-service-manager.sh。
2025-11-12 21:08:02
280
原创 sqoop从hive导出mysql常见错误汇总
选择 sqoop 的原因是,datax 不能直接将 mysql 的数据导入 hive,需要提前创建表,然后将数据导入表对应的 hdfs 上。假如我导入表的时候,表中的一个日期字段是 0000-00-00 00:00:00 就会报错。比如 这个表 user_quota、dict_provinces。
2025-10-25 08:52:20
240
原创 商业银行中各个主题可视化展示
某某银行项目是一个以面向销售交易、财务、风险监控等分析主题的数据仓储项目,数据来源于柜面业务、贷款系统等各个系统以及各业务负责人员的手工导入,通过这些源数据加工汇总成分析数据,并以仪表盘、柱状图、折线图、报表等形式为甲方管理层分析决策提供数据指标方面的支持,直观的监测企业运营情况,并对异常关键指标预警和挖掘分析。
2025-10-25 08:43:01
745
原创 spark on hive 还是 hive on spark?
我们都知道,hive默认的计算引擎是mr,但是mr计算依赖于磁盘,导致计算非常缓慢,开启本地模式会稍微快一点,但是治标不治本,于是有些公司就将计算引擎切换成tez或者spark。spark作为目前主流的离线计算引擎,非常的方便,所以很多企业都想直接将计算引擎换成spark,但目前hive和spark结合有两种方式Spark On Hive ,还有一种Hive On Spark,到底应该怎么选择呢?
2025-10-11 15:31:34
357
原创 kettle获取昨日时间-方案二(java代码)
通过编写java代码,传入当前日期,然后根据java API,获取前一天的日期进行返回。一个输入参数,一个输出参数,给定一个日期,获取这个日期的前一天的日期。操作步骤跟之前一样,数据名称必须是 dt, 值是 系统时间(可变)修改获取变量,因为我的sql语句中有两个?在作业中,拉取【获取变量】,输入是表输入,输出是插入更新。创建一个作业--设置变量,操作跟之前一样。测试一下,从java代码中点击【测试类】点击获取变量,输入yesterday。记得先创建表,执行sql语句。执行任务,查看结果。
2025-10-09 20:52:21
351
原创 kettle如何获取昨天的日期--方案一(正则表达式)
摘要:本文介绍了在SQL中获取前一天日期的两种方法:使用date_sub函数和adddate函数,并演示了如何通过正则表达式从时间字符串中提取年月日数据。重点展示了如何将这些技术应用于实际业务场景,通过设置变量和连接作业,构建一个完整的ETL流程,最终实现使用变量查询前一天订单数据并更新数据库的操作。整个流程分为两步:先设置变量,再在SQL查询中使用该变量获取前一天的数据进行处理。
2025-10-09 20:50:31
464
原创 什么是B域?
B域(业务域) 是企业中所有面向市场、客户、产品和收入的流程、数据和信息系统的总称。它是企业直接进行商业活动和实现价值创造的核心领域。当你听到“B域数据”时,它通常指的是客户数据、交易数据、产品数据等直接用于商业分析和决策的数据,与“O域”的网络日志、性能数据等形成鲜明对比。
2025-09-23 21:44:09
318
原创 YARN 的 ResourceManager 失败后,如何恢复任务?
当ResourceManager(RM)失败后,任务的恢复并不像“重启任务”那么简单,因为它是一个有状态的核心调度器。YARN通过 机制来解决这个问题。其核心思想是:下面是ResourceManager高可用(HA)架构与故障恢复流程的详细示意图:YARN ResourceManager失败后的恢复,并非直接“恢复任务”,而是通过一套::Active RM持续将状态写入。: 监控Active状态并协助Standby RM选举。:新的Active RM从,重建内存状态。
2025-09-18 16:27:36
1034
原创 zk选举ZAB协议和FLE算法
其实不管是zxid也好,server_id也好,每个节点都是先投自己一票,然后进行广播,如果接受到别的服务器发过来的值,比自己的打,会重新投票给对方或者自己。所以总结来讲,就是先比较EPOCH ,如果相同,比较zxid,如果还一样,比较Server_ID,就是myid文件中的那个数字。S1 收到 S2 的投票 (2, 120),发现 120 > 100,于是 S1 更新投票,改投 S2 (2, 120)S1 的 zxid 是 100,S2 的 zxid 是 120,S3 的 zxid 是 110。
2025-09-18 12:30:47
538
原创 DataGrip插件--BigData Tools
你是否有这样的烦恼,使用DataGrip操作hive的时候,有时候想看看hive在hdfs以及yarn上的情况,这个时候,就需要在浏览器访问,切来切去非常的不方便,这个时候我们可以在DataGrip中安装一个插件即可--BigData Tools。可以通过 datagrip 查看 hdfs 以及 yarn 的内容。当然还可以连接 hive、spark 等多种大数据组件。记得重启 Datagrip。第二步:连接 hdfs。第二步:连接 yarn。
2025-09-18 08:29:12
285
原创 hdfs 的纠删码技术ErasureCoding
一句话概括:纠删码(EC)是一种比传统多副本复制更高效的数据容错方法。它通过将数据块切割、编码,生成奇偶校验块,并将所有这些块分散存储在不同的节点上。在发生故障时,即使丢失部分块,也可以通过数学计算完整地恢复出原始数据。传统副本复制(Replication)•工作原理:这是 HDFS 默认的容错机制。比如,你有一个 128MB 的数据块,系统会简单地将其复制 3 份(默认副本数),然后存储到 3 个不同的数据节点上。•优点:实现简单,读取性能高(可以从多个副本读取)。•缺点:。
2025-09-17 08:46:15
673
原创 MapReduce中一个插件引发的系列问题
使用这个插件的时候,如果有需要执行的主函数,那么在mainClass中指定,否则报mainClass相关的错误。原因是mainClass中已经指定了入口是哪个类,命令中就不要再次指定了。
2025-09-15 16:54:07
212
原创 BOSS一键投递插件
然后,将下载的zip安装包拖拽带这个页面即可。下载完之后,不要解压,打开EDGE浏览器,点击插件页面。界面中,出现这个就说明成功了。
2025-08-21 16:10:45
515
原创 使用java代码操作doris数据库
Arrow Flight SQL 还提供了通用的 JDBC 驱动,支持与同样遵循 Arrow Flight SQL 协议的数据库无缝交互。除了使用 JDBC,与 Python 类似,Java 也可以创建 Driver 读取 Doris 并返回 Arrow 格式的数据,下面分别是使用 AdbcDriver 和 JdbcDriver 连接 Doris Arrow Flight Server。注意:需要将 pom 文件中的 mysql 的驱动包注释或者删除,否则报错!
2025-08-14 08:49:44
814
原创 将mysql导入doris数据库
假如没有使用新版的 datax,就不带 doriswriter 插件,会报如下错误!创建并编辑datax job任务json文件,并保存到指定目录。下面是我上面数据表在doris对应的建表脚本。
2025-08-14 08:47:24
478
原创 解决sparksql创建出来的数据库路径错误的问题
在/usr/local/bin 下创建一个脚本:spark-service-manager.sh。首先启动 sparksql 的远程服务:start-thriftserver 服务。将hive-site.xml 复制到 spark的conf 下。解决方案:在hive 下修改hive-site.xml。使用datagrip 重新连接一下,记得刷新一下连接。修改spark下的hive-site.xml。
2025-07-23 21:56:37
313
原创 There are 2 missing blocks. The following files may be corrupted
记得不需要带前面的块的名称,删除之后刷新界面即可。
2025-07-23 21:55:25
235
原创 SpringTask任务调度
在springboot启动程序上增加注解@EnableScheduling。springtask是springboot框架中自带的时间调度程序。建立一个任务类,类上面增加@Component,在方法上增加表达式。缺点:不能做分布式调度。优点:简单易用配置少。
2025-07-03 10:37:50
197
原创 SpringBoot+Mybatis(Plus)极速入门案例
JavaWeb: javaWeb 项目是用来接收别人发给你的请求,javaWeb 代码处理请求,并响应。
2025-07-03 10:35:17
999
原创 突然虚拟机磁盘只剩下几十K
假如一个文件正在被使用,你删除之后也是不会释放存储空间的。需要关闭相应的服务才能释放。第一步:查找哪些文件大于 100M。第二步:删除掉无用的 log。发现,磁盘剩余空间并没有变大。
2025-06-11 20:31:27
309
原创 FineBI中FCP考试模拟题解答
下载最新的模拟试卷:作业一:数据处理: 完成DSB银行交易目标达成差距分析这个案例作业二:主题模型:完成某科技公司预算与费用占比分析这个案例作业三:组件计算:完成空调零售分析之条件过滤分析这个案例。以下是这三道大题的解答步骤如果想要将数据统计出来,需要 SQL 思维,即:如果我要统计这样的数据,使用 sql 怎么写?
2025-06-11 08:38:54
1016
1
原创 coze工作流完成行业调研报告
AI 目前发展的路径,提示词-->工作流-->智能体以写文章为例,以前是有啥不懂的问 AI,AI 给你提示,后来是工作流,跟流水线一样,先做啥再做啥,一步步智能化来做,智能体更像是一个机器人,你让它帮你写文档,给它讲清楚,它就可以帮你写,你只需要审阅就可以啦。工作流更像是面向对过程,智能体像是面向对象。
2025-05-10 17:14:51
1491
原创 通过github开源软件一键清除无用的微信好友
我使用了一下,感觉还可以,网上有些朋友担心,泄密呀,钱被转走了等。我觉得不大可能,首先这个软件是开源的,开源不等于安全,但相对来讲不至于植入病毒,另外,微信端我相信不会这么容易就再不输入密码的情况下把钱转走,腾讯毕竟也有几把刷子的。进入之后,就很简单了,扫描把你删除的人,拉黑你的人,以及你拉黑的人。最后将删除你的人,打个标签,然后退出这个软件,在微信上退出 pad。于是乎网上学习一下,看到了一个一个好项目,试了一试,感觉还不错,分享出来。下载之后,点击这个服务器,启动,启动之后不要关闭,等待弹出浏览器。
2025-04-29 14:50:49
735
1
原创 高德MCP制作旅游攻略
它是Model Context Protocol的简称,是一种 由Anthropic推出的开放标准,旨在实现大型语言模型(LLM)与 外部数据源和工具之间的无缝集成。MCP通过标准化协议,使AI 模型能够安全地访问和操作本地及远程数据,从而提升AI应用的响应质量和工作效率。MCP 就像是一个 “通用插头” 或者 “USB 接口”,制定了统一的规范,不管是连接数据库、第三方 API,还是本地文件等各种外部资源,目的就是为了解决 AI 模型与外部数据源、工具交互的难题。
2025-04-24 11:12:28
984
原创 通过Cline智能体完成python点名系统
OpenAI的元老翁丽莲于2023年6月在个人博客首次提出了现代AI Agent架构。智能体(AI Agent)是一种能够自主行动、感知环境、做出决策并与环境交 互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元 ,具备独立思考、调用工具去逐步完成给定目标的能力。
2025-04-23 09:25:00
909
原创 DeepSeek+大数据分析快速应用落地
编写一个 sqoop 命令,将 hive 中的 ai_test 数据库中的ads_yj_xl_gl 数据导出到 mysql 数据库中,mysql 数据库的主机名是 node01,用户名是 root,密码是 123456。提示词:根据以上 3 个文件,生成 hive 的建表语句,建表时字段为英文,注释为中文,字段名称不要太长,注意第一行是我们的表头。1、准备一个 hive 的环境,并可以进行远程连接。
2025-04-16 21:55:59
1988
2
原创 datax急速入门教程(保姆级)
mysql数据导入hive表,使用sqoop,不需要事先在hive中创建表,而datax需要。这样的话,大大提升了工作量。在咱们的datax中没hiveReader,但是有hdfsreader,所以本质上就是hdfs导出到mysql。hdfswriter 中的columns 类型,一般跟hive 表中的字段 类型保持一致是不会报错的。读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。
2025-03-17 21:51:46
931
原创 大数据技术之Flink优化
Flink 针对不同的设置为 RocksDB 提供了一些预定义的选项集合,其中包含了后续提到的一些参数,如果调整预定义选项后还达不到预期,再去调整后面的 block、writebuffer 等参数。当前支持的预定义选项有 DEFAULT、SPINNING_DISK_OPTIMIZED、SPINNING_DISK_OPTIMIZED_HIGH_MEM 或 FLASH_SSD_OPTIMIZED。有条件上 SSD 的,可以指定为 FLASH_SSD_OPTIMIZED#设置为机械硬盘+内存模式。
2025-03-16 22:34:06
1189
原创 第三章:大模型中的提示学习
特性传统微调情境学习(GPT-3)参数更新需要梯度更新,调整模型参数冻结参数,无需更新数据需求需要大量任务特定数据仅需少量示例即可完成任务任务适应性单一任务专用多任务通用,灵活性强训练成本高成本,复杂过程低成本,高效易用先列公式:把解题思路一步步写出来再算结果:根据推导过程得出最终答案 模型通过生成中间推理步骤(如:"10个苹果-3个=7个 → 7个+5个=12个"),模拟人类思考过程。思维链的三大核心作用(对比图中传统微调方法)作用维度传统微调(图像右侧)
2025-03-16 22:32:01
999
大型语言模型问题求解中的思维树方法论
2025-03-11
基于自注意力机制的序列转换模型-Transformer的提出及其应用
2025-03-11
美国劳动力市场中大型语言模型的影响潜力:早期评估及其广泛应用前景
2025-03-11
自然语言处理领域的深度双向变压器预训练模型BERT及其应用
2025-03-11
基于交互式可视化的Transformer模型注意机制探索工具-DODRIO及其应用
2025-03-11
自我一致性提升自然语言模型链式思维推理能力的研究与应用
2025-03-11
深度解析注意力模型在神经网络中的发展与应用及其对解释性的促进
2025-03-11
深度解析GPT-4架构与基础设施:模型参数超1.8万亿的秘密
2025-03-11
java程序员上班那些事
2010-03-11
关于手机开发的一些想法
2011-01-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅