
机器学习的感悟
文章平均质量分 62
羊驼养殖户
数据分析学习中
展开
-
逻辑回归中对L1\L2正则化的理解
在逻辑回归中,L1和L2正则化是常用的正则化技术,用于控制模型的复杂度并防止过拟合。它们通过在损失函数中引入额外的正则化项来实现。原创 2023-09-18 11:05:07 · 1281 阅读 · 0 评论 -
Transformer最直观的解析(译)
解码器堆栈输出一个浮点数向量。我们怎么把它变成一个词?这是最后一个线性层的工作,然后是一个Softmax层。线性层是一个简单的全连接神经网络,它将解码器堆栈产生的向量投影成一个更大的向量,称为logits向量。让我们假设我们的模型知道从训练数据集中学习到的10,000个唯一的英语单词(我们模型的“输出词汇”)。这将使logits向量宽为10,000个单元格——每个单元格对应一个唯一单词的分数。这就是我们如何解释线性层之后的模型输出。原创 2023-09-14 16:08:41 · 278 阅读 · 0 评论 -
FM模型的例子
【代码】FM模型的例子。原创 2023-09-13 10:16:24 · 261 阅读 · 0 评论 -
pytorch中使用embedding层的示例
【代码】pytorch中使用embedding层的示例。原创 2023-09-07 14:11:21 · 348 阅读 · 0 评论 -
使用dataframe基于pytorch训练神经网络模型的例子
【代码】使用dataframe基于pytorch训练神经网络模型的例子。原创 2023-09-07 11:01:17 · 416 阅读 · 0 评论 -
XGBOOST自定义损失函数
import osseed = 1# 加载数据集# 划分训练集和测试集# 转换数据格式为DMatrix# 设置模型参数params = {'objective': 'binary:logistic', # 二分类逻辑回归'eval_metric': 'error', # 评估指标为错误率# 训练模型num_rounds = 100 # 迭代次数# 预测y_pred_binary = [1 if p > 0.1 else 0 for p in y_pred] # 将概率转换为类别。原创 2023-08-16 15:55:12 · 808 阅读 · 0 评论 -
自编码器的介绍
【代码】自编码器的例子。原创 2023-08-11 15:20:29 · 565 阅读 · 0 评论 -
风控建模常用指标
KS常用于评估模型区分度,区分度越大,说明模型的风险排序能力越强。原创 2023-08-10 13:56:04 · 2340 阅读 · 0 评论 -
使用python快速上手MongoDB
find():find()方法用于从集合中检索文档。它接受一个查询条件参数,并返回满足条件的所有文档。findOne():findOne()方法用于检索集合中满足条件的第一个文档。它与find()类似,但只返回一个文档。方法用于计算满足条件的文档数量。distinct()方法用于获取指定字段的不同值列表。sort():sort()方法用于对查询结果进行排序。limit():limit()方法用于限制返回结果的数量。原创 2023-08-08 14:26:32 · 420 阅读 · 0 评论 -
对smote的理解
假设我们选择K=5,对于正类别中的一个样本,找到其5个最近邻样本,并在这5个样本中随机选择一个样本。假设我们选择了与该样本距离最近的一个样本,然后计算这两个样本之间的差值,并乘以一个随机数0.2,加到此前选择的样本上。最终得到一个新的合成样本。用真实数据测试,原始数据由10000条样本构成,其中正例1848例,负例8152例,使用XGB模型测试,smote后新增正样本2228例,在不使用smote时模型在oot上的 ks0.125 ,使用smote后 模型在oot上的 ks0.090。原创 2023-08-04 16:48:45 · 692 阅读 · 0 评论 -
逻辑回归:极大似然估计推导二分类的交叉熵损失函数
σz11e−zσz1e−z1其中,zzzzβ0β1x1β2x2βnxnzβ0β1x1β2x2βnxnβ0β1β2βnβ0β1β2βn是模型的参数,x1x2xnx1x2xn是输入特征。逻辑函数的输出σzσ(z)σz表示输入样本属于正例的概率,而1−σz1−σ(z)1−σz。原创 2023-08-03 15:08:54 · 944 阅读 · 0 评论