
机器学习算法
文章平均质量分 88
Li_yi_chao
这个作者很懒,什么都没留下…
展开
-
生存分析——给宁康康什么时候有女朋友
宁有女朋友吗,来,先给宁康康什么时候会结婚,哈哈!以50岁为截断,你从出生开始,到 t 时刻没有女朋友的概率为多大?这个概率会受什么影响呢?1)时间,随着年纪的增大,结婚的概率也会越来越大,这个因素仅仅取决于时间;2)一些客观因素影响,比如:学历、财力、阅历、魅力、blabla综上,我们抽象出了两部分的因素,一部分受时间的影响,你可以理解为是自然情况下的概率(不谈少数类);另一部分受客观因素的影响,这些因素会影响整体的概率,使得它在基准上增加或减少(另一半的质量)。有人问了这跟生存分原创 2020-09-11 14:39:11 · 587 阅读 · 0 评论 -
隐\马尔可夫模型 “告诉你” 马航(MH370)去哪儿了
很多枯燥的知识,往往只要结合一个很好的实际问题,会带来很多的兴趣动力搞定它!马航问题: 2014年3月8日,马来西亚航空公司MH370航班(波音777-200ER)客机凌晨0:41分从吉隆坡飞往北京;凌晨1:19分,马航MH370与空管失去联系。凌晨2:14分飞机最后一次出现在军事雷达上之后人间消失。 2015年7月29日在法属留尼汪岛(l‘île de la Reunion)发现襟副翼残骸; 2015年8月6日,马来西亚宣布,该残骸确属马航MH370。随后法国谨慎宣布...原创 2020-07-16 17:28:27 · 785 阅读 · 0 评论 -
异常点检测 孤立森林(isolation forest)
先说重点1、孤立森林是一种适用于连续数据的无监督异常检测方法2、孤立森林,不再是描述正常的样本点(给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常),而是要孤立异常点。3、根据‘高密度的簇是需要被切很多次才能被孤立,低密度的点被切分较少次就可以被孤立’的原理,最终算法比较路径长度的平均值即可捕获异常点。4、对小数据集能取得更好的效果。样本数较多会降低孤立森林孤...原创 2019-12-31 18:14:20 · 2959 阅读 · 0 评论 -
样本不均衡之Borderline-SMOTE——smote算法的改进
许多现实领域存在着不平衡的数据集,如发现不可靠的电信客户、卫星雷达图像中的漏油检测、学习单词发音、文本分类、欺诈电话检测、信息检索和过滤任务等。在这些领域中,我们真正感兴趣的是少数类别而不是多数类别。因此,我们需要对少数群体作出相当高的预测。smote合成少数样本过采样技术是解样本不均衡的方法。本文提出了两种新的过采样方法,即Borderline-smote1和Borderline-smote2,...原创 2019-07-10 15:00:09 · 17009 阅读 · 3 评论 -
怎么使用模型融合Stacking效果没有提升反而下降?
关于模型融合的原理以及模型融合的各种方法的文章帖子太多太多,不得不说千篇一律,然而模型融合怎么总感觉是‘别人家的模型融合’,自己模型融合效果没有提升反而下降了呢?我们说说被称为kaggle后期杀手锏的Stacking。一、简单说下Stacking最核心的两个点,推荐以下文章了解stacking其他内容。Kris Zhao:【干货】比赛后期大招之stacking技术分享 峰峰...原创 2019-04-28 18:42:11 · 7999 阅读 · 3 评论 -
SMOTE算法——合理样本生成器,告别样本不均衡
首先,看Smote算法之前,我们先看下当正负样本不均衡的时候,我们通常用的方法:抽样 常规的包含过抽样、欠抽样、组合抽样 过抽样:将样本较少的一类sample补齐 欠抽样:将样本较多的一类sample压缩 组合抽样:约定一个量级N,同时进行过抽样和欠抽样,使得正负样本量和等于约定量级N 这种方法要么丢失数据信息,要么会导致较少样本共线性,存在明显缺陷权重调整 常规的...原创 2019-02-14 11:41:18 · 5193 阅读 · 0 评论 -
Logistic Regression核心知识点透析
一、线性回归到广义线性回归 线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。线性模型通过联合其他函数扩展成为,建立响应变量的数学期望值与线性组合的预测变量之间的关系的模型,大大扩展了线性模型可解决问题的范围,这就是广义线性回归。不同的联系...原创 2019-02-13 18:28:55 · 626 阅读 · 0 评论 -
【绝地求生】—— AI挖掘百万‘鸡王’的游戏数据,让你把把吃鸡
绝地求生这个电子竞技游戏已经风靡全球。此款游戏有超过5000万份出售,是第五个最畅销的游戏,并有数百万活跃的月度玩家。100名玩家被空手扔到一个岛上,随着游戏区不断缩小,玩家必须探索,清除,并消灭其他玩家,直到只有一个人或一个队活到最后,这就是玩家经常说的“吃鸡了”。不过你知道‘鸡王’获胜的最佳策略是什么吗?你应该躲在一个地方等待胜利,还是需要成为最棒的射手呢?让我们来看看数据...原创 2018-10-09 10:48:47 · 3674 阅读 · 5 评论 -
ARIMA——从案列出发,让你彻底懂得时间序列模型
解读导航:文章脉络会先以图问结合的方式,让你理解ARIMA的基本概念和术语,然后以预测下月商品销售额为实例,带你亲临建立时间序列模型的步骤和方法,之后介绍一种很有前瞻性的方法Prophet,最后总结时间序列模型的要点、技巧和注意事项。一、用图形理解概念ARIMA模型的全称叫做自回归移动平均模型(ARIMA, Autoregressive Integrated Moving Average ...原创 2018-08-24 16:42:36 · 12424 阅读 · 1 评论 -
从对最小二乘做线性回归的正则化,逐渐延伸至ElasticNet回归
要想理解ElasticNet回归,正则化是必须要首先知道的,其次是岭回归和Lasso回归,知道了这些,弹性网回归自然也就明白了。所以我们从一个最小二乘做线性回归问题开始,逐渐推导出ElasticNet回归一个问题:我们都知道利用最小二乘法来做线性回归,即让损失函数达到最小值,可得到的最优的拟合参数(即θ )。但是如果我们用来拟合的特征变量过多,而且特征变量之前存在很高的相关关系...原创 2018-08-08 18:14:36 · 1738 阅读 · 0 评论 -
TPOT:利用遗传算法实现了机器学习自动化
前言在机器学习这个领域工作的人都知道设计有效的机器学习系统是一个乏味的过程,通常需要对机器学习算法有相当的经验,问题领域的专业知识,以及蛮力搜索来完成。就没有什么办法,减轻这部分乏味的工作吗? TPOT可以一、TPOT简单介绍TPOT 是一个 Python 编写的软件包,利用遗传算法行特征选择和算法模型选择,仅需几行代码,就解决了机器学习流程设计中特征工程、模型选择、超参优化三个乏味的...原创 2018-08-08 17:07:24 · 2876 阅读 · 0 评论 -
web文本数据清洗流程及实例
今天,超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路。大多数可用的文本数据本质上是高度非结构化和嘈杂的,需要更好的见解或建立更好的算法来处理数据。我们知道,社交媒体数据是高度非结构化的,因其非正式的交流,存在包括拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。一个典型的商业问题,假设你感兴趣的是:这是iPhone在粉丝中更受欢迎的特点。下面你已...原创 2018-08-15 11:34:24 · 6168 阅读 · 0 评论