自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 开源ChatBI : SuperSonic技术分析和使用文档

为了提高SQL的准确度,需要语义模型的规范性和可识别性。一些经验:a.模型管理,尽量拆解大宽表,不要让一个模型里存在两个含义相近的字段;b.字段和问题要一个一个增加;c.从模型字段定义的清晰度上优化解析准确度;d.字段含义需要和字段值含义匹配;

2025-03-05 15:35:01 853

原创 CDH6.3.1安装文档

现在到安装CDH的阶段了,前两章做了liunx集群的搭建和mysql的搭建,基础准备已经做好,本文以CDH6.3.1版本开始搭建CDH;

2025-02-18 10:36:10 950

原创 linux离线安装mysql数据库

CDH安装使用mysql存储元数据,经常在操作过程出现权限问题,以下整理了一份安装教程。

2025-02-13 09:55:12 1032

原创 linux集群搭建

搭建一个linux集群基本按我搭建经验描述的,尽量摆脱官方的正式,我最开始学习搭建的时候,很多内容一些很小没注意的就导致卡很久。社区共享,希望分享的内容能得到收藏,说明这个操作文档好用。

2025-02-10 08:21:08 1062

原创 DeepSeek在windows本地部署

最近大火的deepseek,在使用网页API交流的时候经常失败,就研究如何部署在本地,发现deepseek真的是拉低了大模型使用的门槛,部署十分简单,大家可以试试。

2025-02-07 10:50:27 3591

原创 大数据应用对企业的价值

大数据是新的技术生态,技术就是工具,工具就是用来解决问题;对于已有的应用场景,大数据技术提供新的解决方案;对于大数据技术优秀的性能,可以构建新的业务需求;上文提到的应用和应用价值只是思考方向,对于更多的可能性,需要从真实应用需求中挖掘。

2024-02-08 09:58:45 2136 1

原创 大数据企业应用场景分析

大到企业,小到业务团队,都有可落地的大数据应用场景,可以和需要是两回事,有价值才需要;从价值角度,评估业务数据的情况,数据大量级、性能高要求都是大数据技术的适用场景。引入大数据技术,从数据分析、智能推荐、产品功能优化、异常检测、智能管理、人工智能和机器学习应用的视角,评估业务的必要性,再规划资源落地,尽量少走弯路。本章为下一章分析大数据应用的价值做铺垫。

2024-02-05 15:13:21 1849 1

原创 DolphinScheduler数仓任务管理规范

在使用DolphinScheduler做数仓任务管理时,数据建模分层落地到调度上缺少规范,社区用户用起来比较乱,这造成了数据管理困难和异常容错繁琐等痛点,本文基于数仓数据建模标准的方法论,构建一套用于DolphinScheduler管理数据建模任务的规范,避免以上痛点。

2024-02-01 15:58:32 1986 2

原创 使用Neo4j做技术血缘管理

本文基于Neo4j数据库做了应用介绍、安装、基础操作和技术血缘demo项目的实现。

2024-01-30 13:32:37 3216 7

原创 八种Flink任务监控告警方式

Flink任务告警方式的选择,要从任务的使用情况和期盼来考量;简单的使用,且任务少,可以用监控目标数据库的数据写入情况、per-job和application运行任务探活、Sesion运行方式通过RestApi来告警;特定场景的业务可以靠监控存储中间偏移量来告警;通用大规模应用场景可以通过采集运行时日志、使用调度平台,使用调度平台、引入开源SDK方式、自定义SDK写入通用系统通用系统里方式选择。

2024-01-28 19:54:19 5671 5

原创 数据建模分析与数仓维度建模规范

数据建模是将定义现实世界的数据抽象成模型的过程,以便更好的分析,管理和操作数据实现需求。数据建模在数仓管理、数据库设计、算法模型训练等领域都有着重要的作用。在不同的领域,数据建模的关注点不同:在数据库设计领域,定义数据模型,用于有效地存储和管理数据,确保数据的一致性、完整性和可维护性等;在算法领域,抽象事物特征构建数据模型,用于跑算法模型,实现线性回归预测、自动决策、神经网络训练等;在大数据领域,用于为组织提供一个集成、一致、可靠的数据存储和分析平台,以支持业务决策、数据分析和报告等。

2024-01-25 14:28:54 2515 8

原创 AI对比:ChatGPT和文心一言的区别和差异

ChatGPT和文心一言都是基于大模型驱动的AIGC产品,由于两者训练的基础数据不同,造成了两者功能和性能上的差异。本文分析了两者大模型的区别,测试了二者部分功能和性能上的差异。

2024-01-22 14:00:05 8866 19

原创 ChatGPT时代对大数据应用的展望

ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。

2024-01-20 18:16:00 2102 4

原创 大数据工作岗位需求分析

随着大数据需求的增多,许多中小公司和团队也新增或扩展了大数据工作岗位;但是却对大数据要做什么和能做什么,没有深入的认识;往往是招了大数据岗位,搭建起基础能力后,就一直处于重复开发和任务运维的状态;后续大数据人员也做了其他很多工作,仿佛什么都在做,就是不知道集中精力该往哪个方向努力。本文从基础大数据开发岗开始分析,思考大数据工作细分有哪些岗位,分别需要什么能力,以此来提供大数据能力发展方向参考。

2024-01-18 17:38:27 3366 1

原创 MPP架构和分布式架构的区别

对大数据的数据处理需求,当前技术方向上存在两个不同的发展路线,MPP和分布式处理。两者数据处理的基本思路都是一样的,分布式并行处理再合并结果;但由于二者在处理架构上的差异,最终产品在应用需求性能侧重也有所不同。

2024-01-15 20:11:25 3877 10

原创 Flink定制化功能开发,demo代码

本文将通过flink的DataStream模块API,以kafka为数据源,构建一个基础测试环境;包含一个kafka生产者线程工具,一个自定义FilterFunction算子,一个自定义MapFunction算子,用一个flink任务将实时读kafka并多层处理串起来;让读者体会通过Flink构建自定义函数的技巧。

2024-01-12 21:30:50 1269 6

原创 如何基于Flink实现定制化功能的开发

技术为需求服务,通用需求由开源软件提供功能,一些特殊的需求,需要基于场景定制化开发功能。而对于自定义开发功能,Flink则提供了这样的SDK接口能力。本文将从定制化功能需求分析和如何基于Flink构建定制化需求功能两个方面分享描述。

2024-01-11 21:27:08 2230 2

原创 FlinkCDC的分析和应用代码

本文将从FlinkCDC应用场景开始,然后讲述其基于Flink的实现原理和代码应用,为下一篇介绍基于Flink开发定制化引擎做铺垫。

2024-01-09 22:14:23 3611 10

原创 大数据OLAP引擎发展原因及特性分析

大数据OLAP分析能力,纯计算的有:MapReduce、SparkSql、FlinkSql,这些都是可以灵活构建在存储系统之上,拥有数据处理和分析能力;存算嵌合的组件有:Hive、Impala、Druid、kylin、ES、ClickHouse、Doris,这些都具备OLAP分析能力,实时分析还拥有实时数据API支持能力(关注QPS性能)。基于离线OLAP分析,数据处理是构建数仓的核心能力,有HIve和Doris;

2024-01-07 19:48:46 2229 2

原创 Flink任务实战优化

一个好产品,功能应该尽量包装在服务内部;对于Flink而言,无疑是做到了这一点。但是用户在使用Flink的时候,依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化;用最合理的资源使用,保障实时性、稳定性和最佳Tps的处理能力

2024-01-05 14:31:39 4173 24

原创 Flink应用介绍

Flink本身的特性是非常灵活的,基于它的性能和特性,大胆想象,利用Flink去实现、优化需求,可能会有意想不到的好效果。

2024-01-03 22:08:53 2610 2

原创 如何构建大数据指标分析系统

如何构建适合公司技术栈的大数据指标分析系统。

2024-01-02 12:01:46 1603 2

原创 2024年统一大数据应用场景的技术

中间件/大数据组件,统一特定应用场景的技术思考。

2023-12-30 08:00:00 930 3

原创 2024年大数据技术分析选型

大数据技术能做什么?对比传统技术解决了什么传统问题?大数据技术及大数据应用基础介绍。

2023-12-29 13:13:02 2518 1

原创 大数据技术应用思考

如何应用大数据技术,自问与讨论。

2023-12-28 17:03:17 595 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除