
机器学习
文章平均质量分 62
mtj66
这个作者很懒,什么都没留下…
展开
-
有什么方法能缓解特征PSI不稳定的问题
由于时间跨度比较大,很难保证特征稳定性,可以考虑对时间加权,对PSI的筛选放宽一些。原创 2024-04-10 14:58:30 · 506 阅读 · 0 评论 -
chatgpt如何解决模型训练过程中一些未知错误:以xgboot devices_.IsEmpty为例
用chatGPT提高生产力具体背景如下:在训练模型过程中,为了避免资源抢占,我指定了其他的gpu来提高模型训练效率,但是发现训练的时候模型正常,但是在模型预测的时候一直报错,尝试gpu=1,2,3都报错。原创 2023-02-24 16:53:11 · 3407 阅读 · 0 评论 -
wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径。其他语料路径请参考上述的路径命名规则。原创 2022-12-23 13:54:41 · 5050 阅读 · 0 评论 -
xgboost early_stop_rounds是如何生效的?
如果只有一个数据集,直接以该数据集进行评估,在达到指定的训练轮次之前,如果评估指标在该数据集上已经early_stopping_rounds没有提升,则停止训练,返回最后一轮迭代的模型,(并不是最好的一个),如果发生early_stop,会有额外三个参数: bst.best_score, bst.best_iteration and bst.best_ntree_limit,进行参考。如果是多个数据集,则以最后一个数据集的评估指标作为参考来评估是否要使用early_stop。原创 2022-11-30 18:35:54 · 2326 阅读 · 0 评论 -
python float和Java float引发的问题
离线特征是python加工出来的,在python中默认也是float类型,java中xgboost相关的api也都是float类型,为啥进行特征比对的时候结果就不一致呢?所以在进行特征&模型结果比对的时候,最好按照这种结论中的形式进行数据精度对齐,保持结果一致。所以float是8个字节是真正的数字,但是float对象是24字节的。1、python中的float是和Java中的double是精度一样的。2、numpy中的float32是和Java中的float是等价的。此外,布尔值是整数的一个子类型。原创 2022-11-17 18:21:39 · 794 阅读 · 0 评论 -
计算通过率逾期率并绘制通过率逾期率曲线
在信贷领域AUC&KS指标能提现模型的学习效果,但是在评估模型的相对好坏,以及制定使用方案的时候还是需要通过率&逾期率曲线进行评估模型的。横坐标为累计通过率,纵坐标为累计逾期率,此时比较相同的通过率情况下,逾期率越高,曲线位置就越靠近上方。1、可以理解曲线下的面积越小越好,跟AUC曲线是相反的逻辑。2、要看细节部分,在某个局部区间通过率下是否局部更好,是否可以交叉使用3、是否整个曲线都是缠绕的,如果是的话,考虑选择AUC评估指标吧。原创 2022-11-04 12:48:13 · 755 阅读 · 0 评论 -
tf-vsn网络
print('构建embedding', feature_name,len(feature_value)+1,encoding_size)self.model = tf.keras.models.Sequential([ # 使用models.Sequential()来搭建神经网络。x = tf.stack(x, axis=1) # 横向维度扩展。# 画出模型,需要GraphViz包。# 在最后增加一维数据。...原创 2022-08-17 16:22:26 · 436 阅读 · 0 评论 -
多模态&多目标学习-vsn+transformer
print('构建embedding', feature_name, len(feature_value) + 1, encoding_size)# sigmoid 对应 cross_entropy, softmax sparse_categorical_focal_loss。# @tf.function # 使用autograph机制转换成静态图加速。"""Transformer的Encoder部分""""""Transformer输入的编码层""""""多头Attention"""...原创 2022-08-15 23:40:47 · 979 阅读 · 0 评论 -
Error: Received a label value of 1 which is outside the valid range of [0, 1)-Python,Keras
由于keras在做二分类损失的时候,激活函数选择的是sigmod,所以此处不能超过1。# 由于此处为二分类问题,此处选择sigmoid作为激活函数。当选择的损失函数对应的取值超出范围的时候就会报错。# 为多分类,此处选择softmax作为激活函数。...原创 2022-08-03 15:42:22 · 1191 阅读 · 0 评论 -
lightgbm使用multiclass训练二分类模型
由于lgbm.predict_proba输出的结果维度和样本的数据集不一致,导致dataframe进行列赋值的时候报错,下面可以通过修改num_class来验证。如果想要用多分类,来训练二分类目标变量,可以通过如下方法获取概率值。...原创 2022-07-29 16:54:11 · 964 阅读 · 0 评论 -
机器学习面试题总结
gbdt通过每一轮迭代,降低输出概率值(或者回归连续值)和真实值之间产生的loss,即通过loss降低的梯度方向进行梯度下降,从而降低loss。针对回归只是一个特殊情况即拟合梯度下降的方向正好是残差。拟合残差并不是通用的说法,拟合loss,找到梯度下降的方向,降低loss才是本质。.........原创 2022-07-26 10:44:15 · 307 阅读 · 0 评论 -
少量数据集的情况通过scipy优化来拟合函数
import numpy as npimport matplotlib.pyplot as pltfrom scipy.optimize import curve_fitdef func(x, a, b, c, d): return 1/(1+np.exp(-x*a+b)) # + c*x + dxdata = np.linspace(0, 4, 50)y = func(xdata, 2.5, 1.3, 0.5,0.2)rng = np.randomy_noise = 0....原创 2022-02-10 14:07:46 · 445 阅读 · 0 评论 -
结合业务场景做好特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。今天就简单聊聊工作中遇到的一些特征工程中的问题,如果大家有更好的方法论,欢迎留言。1、梳理业务流程这个过程主要是为了了解数据产生的主要环节,每个环节产生的数据有哪些,有哪些数据是有明显的因果关系,提前剔除,避免数据泄露。最好由业务方提供更多的业务场景特征,以及尽可能的将特征入库,如果没有的话先提需求积累数据。2、明确业务目标业务目标为了明确建模的目标变量,目标变量决定了如果加工数据特征。3、确定特征范围经过以上原创 2022-01-18 00:08:19 · 615 阅读 · 0 评论 -
机器学习模型评估方案
模型指标评估,模型本身指标的评估1、测试集评估2、线上指标评估业务指标评估,方便给业务方进行解释,模型能实际产生的效果1、测试集业务指标评估2、线上回测业务指标评估为什么要进行线上评估,在模型开发过程中,遇到的数据真的是各种情况都可能遇到,主要排除的是特征泄露导致的训练集模型效果很好,但是实际效果并不好,这样只能在生产上进行验证...原创 2021-12-14 14:00:13 · 863 阅读 · 0 评论 -
实时场景下的机器学习模型实时特征离线特征融合方案(踩坑笔记)
实时场景下的机器学习模型实时特征离线特征融合方案(踩坑指南)原创 2021-12-09 18:07:20 · 4708 阅读 · 0 评论 -
1.13. Feature selection
1.13.1. Removing features with low variance 移除方差较小的featurefrom sklearn.feature_selection import VarianceThresholdX = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]sel = Vari...原创 2019-01-08 14:29:00 · 265 阅读 · 0 评论 -
使用sklearn做特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。...转载 2018-09-17 11:43:05 · 518 阅读 · 0 评论 -
全概率与条件概率的组合推导
第一步骤 是概率空间的划分,这是全概率公式 第二步骤 是条件概率原创 2017-07-05 21:58:47 · 2629 阅读 · 1 评论 -
从菜鸟到老司机,数据科学的 17 个必用数据集推荐
此处保留英文版,不进行翻译原文来此https://www.analyticsvidhya.com/blog/2016/10/17-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/To help you decide your start line, I’ve divided the da原创 2017-06-28 15:18:52 · 945 阅读 · 0 评论 -
一个聊天场景的思考:初聊&尬聊
受博客激发,记录一下自己的想法http://blog.youkuaiyun.com/allwefantasy/article/details/50805759 应用场景:尬聊应用人群:男女朋友,单身狗应用方法:话题推荐,聊天展开,聊天语句推荐,推荐方法:个性兴趣分类,聚类分析,聊天模型搭建(机器学习深度学习相结合)。有其他内容欢迎留言扩展。原创 2017-09-05 13:34:39 · 1067 阅读 · 0 评论 -
LabelEncoder、OneHoeEncoder处理多列数据时使用注意事项
在进行模型训练的时候会对数据进行统一的预处理,但是在生产部署的时候,模型需要数据按照数据清洗的流程进行转化,但是此时就会遇到一个问题,一列值进行LabelEncoder的时候,需要进行fit_transform一次,多列不就意味着需要多个LabelEncoder.也就是说,必须要把这些LabelEncoder进行保存,然后在生产调用过程中,加载这些LabelEncoder进行逐列的处理。这种形式确实有一定的弊端,那就是需要保存多个LabelEncoder模型那该如何进行权衡呢?首先数据应..原创 2021-04-15 11:56:02 · 2835 阅读 · 3 评论 -
Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析
米筐科技(RiceQuant)策略研究报告:Barra 结构化风险模型实现(1)——沪深300指数的风格因子暴露度分析江嘉键1 年前 1 概述Barra 结构化风险模型是全球知名的投资组合表现和风险分析工具。最近一段时间,我们米筐科技量化策略研究团队对该模型进行了系统研究,并在米筐科技公司的策略研究平台上进行了实现。接下来一段时间,我们将以系列专题的形式展示我们的研转载 2017-07-03 22:12:00 · 22151 阅读 · 0 评论 -
使用sklearn做单机特征工程
转自 http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数转载 2017-07-03 22:21:00 · 512 阅读 · 0 评论 -
flinksql做近实时特征处理的坑
flinksql做近实时特征处理的坑,以及解决方案。原创 2021-12-10 15:11:00 · 4038 阅读 · 2 评论 -
Lasso回归算法: 坐标轴下降法与最小角回归法小结
http://www.cnblogs.com/pinard/p/6018889.html 本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归。1. Ridge回归的损失函数 在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以及什么时候适合用 Ridge回归。如果对什么是Ridge回归还完全不清楚的建议阅读我这篇文章。 ...转载 2018-08-05 22:10:53 · 1211 阅读 · 0 评论