
挖掘
文章平均质量分 64
十二点的泡面
这个作者很懒,什么都没留下…
展开
-
数据挖掘篇【 concat函数 和 concat_ws函数 】
这个表达式的作用是将user_id列的值、字符串":"(由lit(":")生成)和sku_id列的值连接在一起。$"user_id"$"sku_id"lit(":")lit":"concat因此,如果user_id列的值是123sku_id列的值是456,那么的结果将是字符串"123:456"。原创 2024-03-29 09:39:43 · 810 阅读 · 0 评论 -
数据挖掘篇【 alias方法 和 隐式转换 】
在 Apache Spark 中,.alias是一个方法,用于给 DataFrame 的列或表达式指定一个新的别名。当你需要对列进行重命名或者在 SQL 表达式中使用更易读的名称时,这个方法非常有用。.alias方法通常与 DataFrame 的列(使用符号或col函数引用)或表达式一起使用,以便在后续的查询或操作中引用它们。原创 2024-03-29 09:37:38 · 762 阅读 · 1 评论 -
数据挖掘篇【 窗口函数 之 dense_rank() 】
是 Apache Spark 中一个用于窗口函数(Window Functions)的排名函数。这个函数会对指定的列进行排序,并为每一行分配一个排名。与函数不同的是,在处理相同值时会保留排名的连续性。也就是说,如果有两个或多个相同的值,它们会获得相同的排名,并且下一个不同值的排名会紧接着前一个排名的下一个整数,而不会跳过任何数字。原创 2024-03-28 10:36:10 · 1203 阅读 · 0 评论 -
大数据挖掘
大数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。它通常与计算机科学紧密相关,并通过统计分析、线上解析解决、情报检索、机器学习算法、专家系统和模式识别等多种方式来实现上述目标。总的来说,大数据挖掘是一个充满挑战和机遇的领域,它不仅为各行各业提供了更高效、更精准的数据支持和服务,也推动了数据科学领域的不断进步和创新。原创 2024-03-28 10:35:40 · 297 阅读 · 0 评论