Kimler-优快云博客

原创 PySpark核心数据集RDD原理

RDD：是Resilient distributed datasets的简称，中文为弹性分布式数据集;是Spark最核心的模块和类。可以简单的把RDD理解成一个提供了许多操作接口的数据集合，和一般数据集不同的是，其实际数据分布存储于一批机器中（内存或磁盘中），这里的分区可以简单地和Hadoop HDFS里面的文件来对比理解。RDD何为弹性分布式数据集：弹性之一：自动的进行内存和磁盘数据存储的切换；弹性之二：基于Lineage的高效容错（第n个节点出错，会从第n-1个节点恢复，血统容错）；

2025-02-14 11:07:34 789

原创 ChatBi技术原理及框架一览

在许多业务场景中，用户最关心的是如何快速获取最终的数据结果，而不是去理解数据是如何被提取和处理的。学习数据获取的复杂过程往往是一个高成本的障碍，而降低这一成本直接关系到产品的吸引力和用户的转化率。对于我们技术人员而言，尽管研发思维是核心，但我们开发的服务最终还是为了更好地服务于业务需求。随着技术的进步，自然语言到SQL（NL2SQL）转化已成为数据开发的未来趋势，它让用户能够用最少的学习成本获取他们所需的数据。

2025-02-14 10:20:17 2067 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人