
大数据
文章平均质量分 92
个人工作学习过程中整理的大数据笔记
潘达斯奈基~
这个作者很懒,什么都没留下…
展开
-
NL2SQL调研
将用户的自然语言查询(NL)转换为 SQL 查询可以显著降低访问关系数据库的障碍,并支持各种商业应用。随着大语言模型(LLMs)的出现,NL2SQL 的性能得到了极大提高。在这种情况下,评估当前文本转 SQL 的转换、确定从业者针对特定场景应采用的 NL2SQL 解决方案以及确定研究人员接下来应探索的研究主题至关重要。原创 2025-04-27 10:20:04 · 740 阅读 · 0 评论 -
spark总结
spark定义spark是一种分布式计算分析引擎,借鉴MapReduce思想发展而来,保留了分布式计算的优点并改进了MapReduce的缺点,让中间数据存储在内存中提高了运行速度,提供了丰富的数据处理的API,提高了开发速度spark的作用:可以处理结构化数据、半结构化数据、非结构化数据,支持python,sql,scala,R,java语言,底层语言使用scala写的与Hadoop框架的区别spark的特点:速度快、易使用、通用性强、支持多种运行方式spark组成Sparkcore。原创 2025-04-26 22:09:36 · 622 阅读 · 0 评论 -
人工智能驱动的数据仓库优化:现状、挑战与未来趋势
现代数据仓库的复杂性和规模正以前所未有的速度增长,这主要是由于数据量、种类和产生速度的急剧增加所致。传统的数据仓库技术在应对这些现代数据需求方面显得力不从心,这催生了对更先进解决方案的需求。数据工程师在手动优化存储和计算过程(例如在MapReduce中)时面临诸多挑战3。这一过程不仅需要专业的知识,而且非常耗时,可能会阻碍创新。人工智能(AI)和机器学习(ML)的出现为自动化和增强这些优化过程提供了巨大的潜力,使工程师能够更专注于数据创新和战略性工作。原创 2025-04-05 09:20:10 · 924 阅读 · 0 评论 -
万字总结数据分析思维
令人不悦的两种情况对于核心数据,如日活,只知道数据在变化,但不知道为何变化,特别是处于一个较大跌幅时,产品为了解释这种现象,就会向数据分析师要各种纬度的数据每隔一段时间,产品都会拉上数据、研发一起对埋点,总是觉得当前的字段不够用,底层日志越来越大,数仓修改的越来越多,取数越来越慢,错误越来越多根本原因都是在于缺少指标体系的建设、宣贯以及实施业务方不重视指标体系是感觉指标体系是基建活,离完成KPI太远,只有出现问题时才会临时重视数据方。原创 2025-03-09 22:46:12 · 1136 阅读 · 0 评论 -
DataLab | 基于LLM的统一BI平台
DataLab由两个主要组件组成:LLM-based Agent Framework 和 Computational Notebook Interface在 DataLab 中,根据用户需求为不同的 BI 任务设计了多个 Agent。为了实现这一目标,我们首先确定了几种常见的 BI 程序,并将它们抽象为代理在推理过程中可以调用的数据工具。示例工具包括用于代码执行的 Python 沙箱和用于可视化渲染的 Vega-Lite 环境。为不同的数据角色提供了一个统一的交互式协作环境,以完成其专业任务。原创 2025-03-04 15:51:37 · 1226 阅读 · 0 评论 -
第二章 程序语言基础知识
低级语言和高级语言汇编、解释、编译高级程序语言必须进行翻译才能为计算机硬件所理解,常用的翻译有汇编,解释和编译解释程序和编译程序编译和解释的区别编译和解释的比较。转载 2022-10-06 18:04:38 · 179 阅读 · 1 评论 -
第一章 计算机系统基础
备考数据库系统工程师笔记转载 2022-09-26 21:33:52 · 828 阅读 · 0 评论