- 博客(25)
- 收藏
- 关注
原创 开源ChatBI : SuperSonic技术分析和使用文档
为了提高SQL的准确度,需要语义模型的规范性和可识别性。一些经验:a.模型管理,尽量拆解大宽表,不要让一个模型里存在两个含义相近的字段;b.字段和问题要一个一个增加;c.从模型字段定义的清晰度上优化解析准确度;d.字段含义需要和字段值含义匹配;
2025-03-05 15:35:01
853
原创 CDH6.3.1安装文档
现在到安装CDH的阶段了,前两章做了liunx集群的搭建和mysql的搭建,基础准备已经做好,本文以CDH6.3.1版本开始搭建CDH;
2025-02-18 10:36:10
950
原创 linux集群搭建
搭建一个linux集群基本按我搭建经验描述的,尽量摆脱官方的正式,我最开始学习搭建的时候,很多内容一些很小没注意的就导致卡很久。社区共享,希望分享的内容能得到收藏,说明这个操作文档好用。
2025-02-10 08:21:08
1062
原创 DeepSeek在windows本地部署
最近大火的deepseek,在使用网页API交流的时候经常失败,就研究如何部署在本地,发现deepseek真的是拉低了大模型使用的门槛,部署十分简单,大家可以试试。
2025-02-07 10:50:27
3591
原创 大数据应用对企业的价值
大数据是新的技术生态,技术就是工具,工具就是用来解决问题;对于已有的应用场景,大数据技术提供新的解决方案;对于大数据技术优秀的性能,可以构建新的业务需求;上文提到的应用和应用价值只是思考方向,对于更多的可能性,需要从真实应用需求中挖掘。
2024-02-08 09:58:45
2136
1
原创 大数据企业应用场景分析
大到企业,小到业务团队,都有可落地的大数据应用场景,可以和需要是两回事,有价值才需要;从价值角度,评估业务数据的情况,数据大量级、性能高要求都是大数据技术的适用场景。引入大数据技术,从数据分析、智能推荐、产品功能优化、异常检测、智能管理、人工智能和机器学习应用的视角,评估业务的必要性,再规划资源落地,尽量少走弯路。本章为下一章分析大数据应用的价值做铺垫。
2024-02-05 15:13:21
1849
1
原创 DolphinScheduler数仓任务管理规范
在使用DolphinScheduler做数仓任务管理时,数据建模分层落地到调度上缺少规范,社区用户用起来比较乱,这造成了数据管理困难和异常容错繁琐等痛点,本文基于数仓数据建模标准的方法论,构建一套用于DolphinScheduler管理数据建模任务的规范,避免以上痛点。
2024-02-01 15:58:32
1986
2
原创 八种Flink任务监控告警方式
Flink任务告警方式的选择,要从任务的使用情况和期盼来考量;简单的使用,且任务少,可以用监控目标数据库的数据写入情况、per-job和application运行任务探活、Sesion运行方式通过RestApi来告警;特定场景的业务可以靠监控存储中间偏移量来告警;通用大规模应用场景可以通过采集运行时日志、使用调度平台,使用调度平台、引入开源SDK方式、自定义SDK写入通用系统通用系统里方式选择。
2024-01-28 19:54:19
5671
5
原创 数据建模分析与数仓维度建模规范
数据建模是将定义现实世界的数据抽象成模型的过程,以便更好的分析,管理和操作数据实现需求。数据建模在数仓管理、数据库设计、算法模型训练等领域都有着重要的作用。在不同的领域,数据建模的关注点不同:在数据库设计领域,定义数据模型,用于有效地存储和管理数据,确保数据的一致性、完整性和可维护性等;在算法领域,抽象事物特征构建数据模型,用于跑算法模型,实现线性回归预测、自动决策、神经网络训练等;在大数据领域,用于为组织提供一个集成、一致、可靠的数据存储和分析平台,以支持业务决策、数据分析和报告等。
2024-01-25 14:28:54
2515
8
原创 AI对比:ChatGPT和文心一言的区别和差异
ChatGPT和文心一言都是基于大模型驱动的AIGC产品,由于两者训练的基础数据不同,造成了两者功能和性能上的差异。本文分析了两者大模型的区别,测试了二者部分功能和性能上的差异。
2024-01-22 14:00:05
8866
19
原创 ChatGPT时代对大数据应用的展望
ChatGPT依靠训练的语言大模型,极大的提升了语言类AIGC的应用。在大数据领域,期盼的愿望是可以通过语言就能实现大数据开发到应用,将chatGPT当作自己的私人管家,大数据工作者只需要去维护解决ChatGPT运维下的系统异常就行。这将极大释放大数据领域工作者的生产力,可以将精力聚焦在更有价值的地方。
2024-01-20 18:16:00
2102
4
原创 大数据工作岗位需求分析
随着大数据需求的增多,许多中小公司和团队也新增或扩展了大数据工作岗位;但是却对大数据要做什么和能做什么,没有深入的认识;往往是招了大数据岗位,搭建起基础能力后,就一直处于重复开发和任务运维的状态;后续大数据人员也做了其他很多工作,仿佛什么都在做,就是不知道集中精力该往哪个方向努力。本文从基础大数据开发岗开始分析,思考大数据工作细分有哪些岗位,分别需要什么能力,以此来提供大数据能力发展方向参考。
2024-01-18 17:38:27
3366
1
原创 MPP架构和分布式架构的区别
对大数据的数据处理需求,当前技术方向上存在两个不同的发展路线,MPP和分布式处理。两者数据处理的基本思路都是一样的,分布式并行处理再合并结果;但由于二者在处理架构上的差异,最终产品在应用需求性能侧重也有所不同。
2024-01-15 20:11:25
3877
10
原创 Flink定制化功能开发,demo代码
本文将通过flink的DataStream模块API,以kafka为数据源,构建一个基础测试环境;包含一个kafka生产者线程工具,一个自定义FilterFunction算子,一个自定义MapFunction算子,用一个flink任务将实时读kafka并多层处理串起来;让读者体会通过Flink构建自定义函数的技巧。
2024-01-12 21:30:50
1269
6
原创 如何基于Flink实现定制化功能的开发
技术为需求服务,通用需求由开源软件提供功能,一些特殊的需求,需要基于场景定制化开发功能。而对于自定义开发功能,Flink则提供了这样的SDK接口能力。本文将从定制化功能需求分析和如何基于Flink构建定制化需求功能两个方面分享描述。
2024-01-11 21:27:08
2230
2
原创 FlinkCDC的分析和应用代码
本文将从FlinkCDC应用场景开始,然后讲述其基于Flink的实现原理和代码应用,为下一篇介绍基于Flink开发定制化引擎做铺垫。
2024-01-09 22:14:23
3611
10
原创 大数据OLAP引擎发展原因及特性分析
大数据OLAP分析能力,纯计算的有:MapReduce、SparkSql、FlinkSql,这些都是可以灵活构建在存储系统之上,拥有数据处理和分析能力;存算嵌合的组件有:Hive、Impala、Druid、kylin、ES、ClickHouse、Doris,这些都具备OLAP分析能力,实时分析还拥有实时数据API支持能力(关注QPS性能)。基于离线OLAP分析,数据处理是构建数仓的核心能力,有HIve和Doris;
2024-01-07 19:48:46
2229
2
原创 Flink任务实战优化
一个好产品,功能应该尽量包装在服务内部;对于Flink而言,无疑是做到了这一点。但是用户在使用Flink的时候,依然可以从版本的选择、代码逻辑、资源参数、业务的数据情况等方面做任务级的定制化优化;用最合理的资源使用,保障实时性、稳定性和最佳Tps的处理能力
2024-01-05 14:31:39
4173
24
原创 Flink应用介绍
Flink本身的特性是非常灵活的,基于它的性能和特性,大胆想象,利用Flink去实现、优化需求,可能会有意想不到的好效果。
2024-01-03 22:08:53
2610
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人