
数据
文章平均质量分 88
南七小僧
C9博士,前百度、联想技术产品总监。深入理解人工智能技术研发与应用。
展开
-
SQL窗口函数
所谓的窗口函数就是动态处理数据的一类函数,也叫做“OLAP分析函数+窗口函数--模板函数名(字段名) over(partition by xxx,yyy order by zzz) --详细介绍分析函数 over (partition by "要分组的列") order by "要排序的列" rows between "开始的行" and "结束的行")over()部分才是“窗口函数”,只不过因为它的特点大家都这样叫,其作用就是划定窗口,分析函数的作用是在窗口内对记录进行统计over函数中有3个参数。原创 2023-08-21 10:25:58 · 118 阅读 · 0 评论 -
Hudi入门 快速教程
在深入研究Hudi机制之前,让我们首先了解Hudi正在解决的问题。客户在使用数据湖时通常会问一个问题:当源记录被更新时,如何更新数据湖?这是一个很难解决的问题,因为一旦你写了CSV或Parquet文件,唯一的选择就是重写它们,没有一种简单的机制可以打开这些文件,找到一条记录并用源代码中的最新值更新该记录,当数据湖中有多层数据集时,问题变得更加严重,数据集的输出将作为下次数据集计算的输入。在数据库中用户只需发出一个更新记录命令就可以完成任务了,所以从数据库的思维模式来看很难理解上述限制,为什么不能在数原创 2021-08-09 14:32:38 · 1213 阅读 · 0 评论 -
什么是数据【标准化】【归一化】,他们有什么作用?
在机器学习中:归一化:为什么归一化能提高梯度下降法求解最优解的速度?假定为预测房价的例子,自变量为面积大小和房间数,因变量为房价。那么可以得到的公式为: y=θ1x1+θ2x2y=θ1x1+θ2x2其中,x1x1代表房间数,θ1θ1代表x1x1变量前面的系数;x2x2代表面积,θ2θ2代表x2x2变量前面的系数。下面两张图(损失函数的等高线)代表数据是否归一化的最优解...原创 2018-09-08 18:34:39 · 6258 阅读 · 0 评论 -
【特征工程常用思路】人工智能辅助糖尿病遗传风险预测项目总结【LGB|XGB|神经网络】
预测算法1. LightGBM LightGBM利用基于histogram的算法,通过将连续特征(属性)值分段为discrete bins来加快训练的速度并减少内存的使用。直方图算法的基本思想:先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图。遍历数据时,根据离散化后的值作为索引在直方图中累积统计量,当遍历一次数据后,直方图累积了需要的统计量,然后根据直方图的离散值,遍...原创 2018-11-15 10:09:49 · 1275 阅读 · 0 评论