
数据挖掘
文章平均质量分 61
蕊在花中羞涩
起点低,当下净,回头脏,平常路
展开
-
【详细版】LS-PLM 的模型结构
在逻辑回归的基础上加入聚类的思想,其灵感来自对广告推荐领域样本特点的观察。在实践中,阿里巴巴给出的m的经验值为12。本质上,LS-PLM可以看作对逻辑回归的自然推广,它在逻辑回归的基础上采用分而治之的思路,先对样本进行分片,再在样本分片中应用逻辑回归进行CTR预估。(1)端到端的非线性学习能力:LS-PLM 具有样本分片的能力,因此能够挖掘出数据中蕴藏的非线性模式,省去了大量的人工样本处理和特征工程的过程使 LS-PLM 算法可以端到端地完成训练,便于用一个全局模型对不同应用领域业务场景进行统一建模。原创 2024-09-18 20:53:18 · 347 阅读 · 0 评论 -
【详细版】GBDT+LR 的模型结构
GBDT是由多棵回归树组成的树林,后一棵树以前面树林的结果与真实结果的残差为拟合目标。每棵树生成的过程是一棵标准的回归树生成过程,因此回归树中每个节点的分裂是一个自然的特征选择的过程,而多层节点的结构则对特征进行了有效的自动组合,也就非常高效地解决了过去棘手的特征选择和特征组合的问题。GBDT+LR 组合模型的提出,意味着特征工程可以完全交由一个独立的模型来完成,模型的输入可以是原始的特征向量,不必在特征工程上投入过多的人工筛选和模型设计的精力,实现真正的端到端(EndtoEnd)训练。原创 2024-09-18 20:40:55 · 387 阅读 · 0 评论 -
【风控策略开发】反欺诈Louvain算法的Python代码
Louvain算法是一种基于无向图(在社交网络中,将边没有方向的图称为无向图,边有方向的图称为有向图)的“社区”发现算法,其基本思想是先将每一个节点作为一个独立的社区,再分别计算各个节点加入其他社区后的模块度(Modularity)增量,从中选出模块度最高的一个邻居节点,合并为一个社区,待所有节点所属的社区不再变化后,将合并后的社区看成一个新的节点,重复上述过程,直到模块度不再增大。选取的节点及确定的节点之间的关系决定了要构建的网络结构,若构建的网络不合理,则最终构建的模型效果也不会很好。原创 2024-08-13 20:19:51 · 1167 阅读 · 0 评论 -
【风控策略开发】反欺诈之基于社交网络识别欺诈团伙
需要强调的是,在反欺诈过程中,识别和拦截欺诈团伙往往是反欺诈工作的重中之重,因为欺诈团伙性质非常恶劣,且一旦欺诈成功,往往会给金融机构带来难以估量的损失,所以开发有效的识别团伙欺诈的反欺诈模型显得尤为重要。在风控过程中,主要通过反欺诈策略识别和拦截欺诈。2)构建针对欺诈客户、欺诈设备、欺诈电话、欺诈IP地址、欺诈GPS等的欺诈黑名单库,在授信申请、用信申请等流程中拦截欺诈客户的申请。在反欺诈过程中,反欺诈模型是精准识别欺诈的利器,在反欺诈模型开发完成后,主要由反欺诈策略利用反欺诈模型结果精准拦截欺诈。原创 2024-08-13 20:06:02 · 1095 阅读 · 0 评论 -
【风控策略】策略和模型的区别与联系
在整个风控过程中,基于不同的风控场景,需要设计不同的风控策略,常见的有授信审批策略、定额定价策略、调额调价策略、催收策略等,但是,无论是什么类型的策略,策略的全生命周期管理都是一样的。风控策略是指策略开发人员基于风控政策、业务场景、风控抓手,针对目标客群,通过一系列规则的设计、组合和应用,对客户进行筛选、分类、评估、处置,在尽可能实现业务增长的前提下控制风险、平衡损失、提升效率,最终达到利润最大化的目的。在项目冷启动阶段,往往只有策略而没有模型,随着项目的开展和数据的积累,才会逐步进行模型的开发和迭代。原创 2024-08-13 19:55:53 · 847 阅读 · 0 评论 -
对部分用户采取了曝光优先策略,如何判断CTR上涨是该策略导致?
我们首先要确定的是,A和B变化了多少,对C变化的贡献度是啥(具体拆解过程可以看第2题《快手:视频的卡顿率从5%上涨到5.5%,如何分析该问题?》,里面有具体的讲解)。只要题目中出现指标的上涨or下降,首要想到的都是对于该指标的拆解。方向2:没有进行AB实验,想要时候评估效果,那题目就变成了「基础的公式拆解,除法、乘法、加法指标如何拆。方向1:事先以AB的方式来验证该场景,那题目就变成了「那我们就可以对过程进行补全,补全的方向有2个。仅拆解还不够,无法归因到题目预设策略。事前的AB,事后的测算,具体。原创 2024-07-18 20:25:50 · 162 阅读 · 0 评论 -
金控风控:Python实现基于数据技巧的拒绝推断
在对精度较为敏感的风控系统中,硬截断法显然是不合理的。因此在实际项目中,通常使用多个差异化较大的模型进行交叉筛选,将多模型评分均较低的样本作为负样本。一种常见的思路是,直接使用KGB模型在拒绝样本上做预测,并将低分样本(如分数最低的20%样本)认为是负样本,带入模型进行估 计,其余拒绝样本全部视为灰色样本,不予考虑。利用KGB模型进行打分,按照逾期概率降序排列,选择截断点 (cut-off)进行截断后,仅将截断点以下的蓝色部分作为负样本带入模 型进行学习,从而修正模型的偏差。根据KGB数据训练KGB模型。原创 2024-06-21 21:57:29 · 516 阅读 · 0 评论 -
机器学习算法:Adaboost算法
但是该算法在实现过程中为取得更高的检测精度则需要较大的训练样本集,在每次迭代过程中,训练一个弱分类器则对应该样本集中的每一个样本,每个样本具有很多特征,因此从庞大的特征中训练得到最优弱分类器的计算量增大。在选择具有最小误差的弱分类器之后,对每个样本的权值进行更新,增大错误分类的样本对应的权值,相对地减小被正确分类的样本权重。该算法的核心思想是通过对样本的权重进行调整,使得每次迭代中分类错误的样本在后续的分类中受到更多的关注,从而使得每个弱分类器都能专注于之前被错误分类的样本。原创 2024-06-12 21:25:43 · 388 阅读 · 0 评论 -
机器学习算法:K均值算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。K均值聚类算法是一种广泛使用的聚类分析方法,其基本原理是将数据集划分为K个簇,每个簇由其质心(即簇中所有点的中心)描述。该算法通过迭代优化过程,将数据集中的每个点分配到最近的质心所形成的簇中,并更新每个簇的质心,直到质心不再发生变化或达到预设的终止条件。原创 2024-06-12 21:19:21 · 498 阅读 · 0 评论 -
机器学习算法:K最近邻算法
K最近邻(KNN,K-NearestNeighbor)分类算法是指数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。原创 2024-06-12 21:14:55 · 607 阅读 · 0 评论 -
机器学习算法:SVM
在使用核方法的非线性学习中,SVM的稳健性和稀疏性在确保了可靠求解结果的同时降低了核矩阵的计算量和内存开销。与其它线性分类器的关系:SVM是一个广义线性分类器,通过在SVM的算法框架下修改损失函数和优化问题可以得到其它类型的线性分类器,例如将SVM的损失函数替换为logistic损失函数就得到了接近于logistic回归的优化问题。从分类的准确性而言,多核SVM具有更高的灵活性,在总体上也优于使用其核函数族中某个单核计算的标准SVM,但非线性和依赖于样本的核函数族构建方法不总是更优的。原创 2024-06-12 20:55:02 · 321 阅读 · 0 评论 -
机器学习算法:逻辑回归
它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。在逻辑回归中,这是最常见的使用方法,更概括地说,它是二元分类最常见的分类器之一。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。原创 2024-06-12 20:45:52 · 281 阅读 · 0 评论 -
机器学习算法:随机森林算法
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。原创 2024-06-12 20:39:10 · 798 阅读 · 0 评论 -
数据挖掘模型——离群点检测——python代码
b:考虑到簇具有不同的密度,可以度量簇到原型的相对距离,相对距离是点到质心的距离与簇中所有点到质心的距离的中位数之比。(2)基于原型的聚类,该过程首先聚类所有对象,然后评估对象属于簇的程度,可用对象到它的簇中心的距离来度量属于簇的程度。二维、三维的数据可做散点图观察,大数据不适用,对参数选择敏感,具有全局阙值,不能处理具有不同密度区域的数据集。对于基于原型的聚类,有两种方法评估对象属于簇的程度(离群点得分)a:度量对象到簇原型的距离,并用它作为该对象的离群点得分。原创 2024-06-05 10:09:10 · 640 阅读 · 0 评论 -
数据挖掘模型——arima时序模型——python代码
时间序列变化主要受长期趋势(T)、季节变动(S)、周期变动(C)和不规则变动(e)影响。根据序列特点,可构建:【加法模型:xt=Tt+St+Ct+εt】【乘法模型:xt=Tt*St*Ct*εt】非平稳时间序列分析--ARIMA模型。原创 2024-06-05 10:06:40 · 435 阅读 · 0 评论 -
数据挖掘模型——Aprior算法关联规则——python代码
Aprior算法主要思想是:找出存在于事务数据集中的最大的频繁项集,在利用得到的最大频繁项集与预先设定的最小置信度阙值生成强关联规则。已知项集的支持度计数,则规则A→B的支持度和置信度易从所有事务计数、项集A和项集A U B的支持度计数推出。项集A的支持度计数是事务数据集中包含项集A的事务个数,简称为项集的频率或计数。最小支持度:衡量支持度的一个阙值,表示项目集在统计意义上的最低重要性。若项集I的相对支持度满足预定义的最小支持度阙值,则I是频繁项集。项集A发生,则项集B发生的概率为关联规则的置信度。原创 2024-06-05 10:00:50 · 312 阅读 · 0 评论 -
数据挖掘模型——K-Means聚类算法——python代码
K-Means算法,一般需先度量样本间(欧几里得距离、曼哈顿距离、闵可夫斯距离) ,样本与簇间(样本到簇中心的距离)及簇与簇间距离(簇中心距离 )。K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性评价指标,即认为两个对象的距离越近,其相似度越大。使用误差平方和SSE作为度量聚类质量的目标函数,对两种不同的聚类结果,选择误差平方和较小的分类结果。d:与前一次计算得到的K个聚类中心比较,若聚类中心发生变化,转过程2,否则,转过程5;原创 2024-06-05 09:57:58 · 826 阅读 · 0 评论 -
数据挖掘模型——BP神经网络——python代码
逆向传播时,将输出误差按某种子形式,通过隐层向输出层返回,并分摊给隐层的节点与输入层节点,获得各层单元的参考误差,作为修改各单元权值的依据。输入样本数据,网络正向传播,得到中间层与输出层的值,比较输出层的值与教师信号的误差,用误差函数判断误差是否小于误差上限。算法开始时,给定学习次数上限,初始化学习次数为0,对权值和阙值赋予小的随机数,一般在[-1,1]。BP算法的学习过程由:信号的正向传播及误差的逆向传播组成。若输出层节点未能得到期望的输出,则转入误差的逆向传播。原创 2024-06-05 09:56:35 · 477 阅读 · 0 评论 -
数据挖掘模型——逻辑回归模型——python代码
b:递归特征消除:主要思想是反复构建模型,选出最好的(最差的)特征(可根据系数来选),将选出的特征放在一边,在剩余的特征里重复这个过程,直至遍历所有特征。c:稳定性:一种基于二次抽样和选择算法相结合较新的方法,主要思想是:在不同的数据子集和特征的子集上运行特征选择算法,不断重复,最终汇总特征选择结果。该过程中特征被消除的次序即是:特征的排序。因此,也是一种寻找最优特征子集的贪心算法。a:通过F检验给出各个特征的F值和p值,筛选变量(选择F值大或p值小的特征);原创 2024-06-05 09:52:49 · 376 阅读 · 0 评论 -
数据挖掘模型——决策树ID3模型——python代码
(3)若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处;决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性不同取值将其划分为若干个子集。决策树处理过程:对分类问题,应从已知类标记的训练样本中学习并构造出决策树,自上而下,分开进行解决。(2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划分为同一个子样本集;决策树构造的核心问题:在每一步如何选择适当的属性对样本做拆分。原创 2024-06-05 09:54:33 · 305 阅读 · 0 评论 -
数据挖掘模型——理论合集
挖掘建模分:分类与预测、聚类分析、关联规则、时序模式等模型。分类与预测是预测问题的两种主要类型,主要是:预测分类标号(离散属性);主要是:建立连续值函数模型,预测给定自变量对应的因变量的值。原创 2024-06-05 09:48:41 · 942 阅读 · 0 评论 -
数据挖掘模型——DBDT+LR的推荐模型
推荐系统只是现代信息处理和传播中不可或缺的技术,它主要通过分析用户的历史行为、内容特征等信息,为用户提供个性化的信息推荐。随着数据规模的增加,推荐系统的算法也不断发展和演进,目前主要有内容基础向量推荐、协同过滤推荐、矩阵分解推荐、深度学习推荐等多种模型。未来的推荐系统将更加注重用户体验,关注用户行为数据中的微妙变化,以提供更贴近用户需求的推荐。推荐系统的黑盒问题:用户难以理解推荐系统的推荐原理,导致用户对推荐结果的信任度降低。解决方案包括提高推荐系统的解释性、可解释性,以增强用户对推荐系统的信任。原创 2024-06-05 09:22:13 · 355 阅读 · 0 评论 -
数据挖掘---熵权法的基本原理
一、熵权法介绍 熵权法是一种客观赋权方法,其基本思路是根据指标变异性的大小来确定客观权重。 依据的原理:指标的变异程度越小,所反映的信息量也越少,其对应的权值也应该越低。二、熵权法步骤(1)对数据进行预处理假设有n个要评价的对象,m个评价指标(已经正向化)构成的正向化矩阵如下:对数据进行标准化,标准化后的矩阵记为Z,Z中的每一个元素:判断Z矩阵中是否存在负数,如果存在的话,需要对X使用另外一种标准化方法对矩阵X进行一次标准化,标准化公式如下:(2)计算第j原创 2022-03-30 16:22:04 · 6289 阅读 · 0 评论