- 博客(132)
- 资源 (1)
- 收藏
- 关注
原创 人工手动筛选特征
提取和展示模型中各特征的重要性,尤其是查看特征重要性为零的特征以及非零特征。计算特征之间的相关性,并移除高度相关的特征(相关系数大于 0.95)使用信息值(IV)和群体稳定指数(PSI)筛选特征。
2024-08-02 17:23:57
191
原创 高度偏斜特征处理:log(x)、sqrt(x)、box-cox、Yeo-Johnson
高度偏斜的特征 : 数据分布不均匀、不对称的特征处理之后:使其分布更接近正态分布或至少减少偏斜程度。
2024-07-30 15:36:34
503
原创 DDPM单步的具体步骤
在前向过程中,模型逐步向数据添加噪声,直到数据完全转化为无结构的噪声这个过程可以用马尔可夫链来描述,其中每一步都向数据添加一小部分高斯噪声。
2024-01-09 21:31:43
530
原创 扩散模型奠基之作:DDPM
DDPM分为两个部分,设计两个不同的概率分布1、前向过程(扩散):这一过程可以用条件概率 q(xt∣xt−1) 来描述2、反向过程(去噪):这一过程可以用条件概率 p(xt−1∣xt) 来描述。
2024-01-09 14:55:54
533
原创 解决matplotlib中文乱码问题
重点关注matplotlib中的ttf文件夹和matplotlibrc文档。第一步,将下载好的SimHei.ttf文件拷贝到ttf文件夹;提醒一点,不要忘记去掉上述所修改三条配置命令前的 # 符号。如果 _rebuild() 报错,则换一种方法reload。
2024-01-08 11:07:30
642
原创 optimizer.zero_grad()、loss.backward()、optimizer.step()
【代码】optimizer.zero_grad()、loss.backward()、optimizer.step()
2023-08-05 11:48:41
222
原创 Convolution operation and Grouped Convolution
【代码】Convolution operation and Grouped Convolution。
2023-07-31 19:15:57
809
原创 CART算法
1、首先,我们需要选择一个特征和阈值来对数据集进行划分。3、然后,我们对子集1继续进行划分。1、首先判断特征1是否小于等于0.5,由于0.7>0.5,因此我们进入右子树。2、然后判断特征2是否小于等于0.3,由于0.6>0.3,因此我们进入右子树。2、接下来,我们计算每个子集的基尼不纯度(这里采用基尼不纯度作为划分标准)。对于子集1-1,由于只有一个样本,也被认为是一个纯度为1的子集。因此,我们选择基尼不纯度最小的子集进行下一步的划分,即子集1。此时,子集1-2已经是一个纯度为1的子集,不需要再进行划分。
2023-06-26 12:52:45
434
原创 C4.5算法
假设我们有一个关于餐厅顾客的数据集,其中包括9个样本,每个样本有3个属性:天气、是否有预订和是否是周末,以及一个类别标签,表示该顾客是否会来餐厅(是或否)。由于是否有预订的信息增益比最大,因此我们选择是否有预订作为划分属性,将数据集划分为有预订和无预订两个子集。对于有预订的子集,其中所有样本都会来餐厅,因此我们可以将其转换为一个叶子节点,并赋予类别标签“是”;对于无预订的子集,需要继续递归地执行上述步骤,直到所有子集都被转换为叶子节点。在本例中,天气有三个取值,即晴天、阴天和雨天,因此。
2023-06-26 12:22:49
1939
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人