
AI
nextdoor6
这个作者很懒,什么都没留下…
展开
-
数据分析时None和NaN区别
None vs NaN区别在pandas中, 如果其他的数据都是数值类型, pandas会把None自动替换成NaN, 甚至能将s[s.isnull()]= None,和s.replace(NaN, None)操作的效果无效化。 这时需要用where函数才能进行替换。None能够直接被导入数据库作为空值处理, 包含NaN的数据导入时会报错。numpy和pandas的很多函数能处理NaN,但是如果遇...转载 2018-07-14 12:12:11 · 9061 阅读 · 0 评论 -
聚类算法
分类和聚类聚类:把相似的东西分成一组。常用算法K-means算法首先需要制定K值,即簇的个数,也即分成的堆数。质心,也即数据的均值,指向量各维求平均即可。距离的度量,常用欧几里得距离和余弦相似度计算。优化目标:优点简单、快速、适合常规数据缺点K值比较难指定,复杂度和样本呈线性关系,样本越多,计算时约复杂;很难发现任意形状的簇。 DBSCAN算...原创 2018-11-04 09:47:54 · 701 阅读 · 0 评论 -
贝叶斯分类算法
贝叶斯公式公式描述:公式中,事件Bi的概率为P(Bi),事件Bi已发生条件下事件A的概率为P(A│Bi),事件A发生条件下事件Bi的概率为P(Bi│A)。朴素贝叶斯算法朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。是一种贝叶斯分类算法中最简单、最常用的一种分类算法。分类算法的任务就是构造分类器。通过以上定理和“朴素”的假定,我们知道:P( Category ...原创 2018-10-07 18:48:13 · 6143 阅读 · 0 评论 -
集成算法
集成算法目的:让机器学习效果更好Bagging模型各个弱学习器之间没有依赖关系,可以并行拟合,如随机森林。随机森林其中随机就是数据采用随机,特征选择随机,其中森林就是很多决策树并行放在一起。由于二重随机性,使得每个树基本上都不会相同,所以最终的结果也不同。 Boosting模型个弱学习器之间有依赖关系,如Adaboost、Xgboost算法Adaboost会根据前一...原创 2018-11-02 14:26:30 · 331 阅读 · 0 评论 -
支持向量机
支持向量机1.超平面公式n 维空间中的超平面由下面的方程确定:其中,w 和 x 都是 n 维列向量,x 为平面上的点,w 为平面上的法向量,决定了超平面的方向,b 是一个实数,代表超平面到原点的距离。且 2.距离公式如果在二维空间中有直线Ax+By+C=0,(x0,y0)到该直线的距离为如果在三维空间中有直线Ax+By+Cz+D=0,(x0,y0,z...原创 2018-10-30 19:10:52 · 1072 阅读 · 0 评论 -
机器学习中欠拟合和过拟合/上采样和下采样
过拟合和欠拟合机器学习模型在训练数据集上表现出的误差叫做训练误差,在任意一个测试数据样本上表现出的误差的期望值叫做泛化误差。 欠拟合under-fitting:机器学习模型无法得到较低训练误差。过拟合over-fitting:机器学习模型的训练误差远小于其在测试数据集上的误差。但是训练误差的降低不一定意味着泛化误差的降低。机器学习既需要降低训练误差,又需要降低泛化误差。图像表示...原创 2018-09-27 21:28:05 · 23578 阅读 · 3 评论 -
机器学习项目实战 交易数据异常检测
https://blog.youkuaiyun.com/u010057965/article/details/80614278转载 2018-09-24 18:24:39 · 383 阅读 · 0 评论 -
机器学习中模型评估方法
交叉验证什么是交叉验证(CV)交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。交叉验证的分类1.随机抽样验证(Hold-OutMeth...原创 2018-09-24 21:54:29 · 494 阅读 · 0 评论 -
决策树算法
决策树算法决策树本质上是通过一系列规则对数据进行分类的过程。如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的修剪。特征选择:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点,以此l类推,而衡量的标准就是熵。计算公式熵值不确定性越大,得到的熵值也就越大。当p=0或...原创 2018-09-29 22:55:46 · 451 阅读 · 0 评论 -
K-近邻算法(KNN)
K-近邻算法介绍如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K-近邻算法是一种分类算法。K-近邻算法步骤k-近邻算法步骤如下:计算已知类别数据集中的点与当前点之间的距离; 按照距离递增次序排序; 选取与当前点距离最小的k个点; 确定前k个点所在类别的出现频率; 返回前k个点所出现频率最高的类别作为当前点的...原创 2018-09-18 13:47:33 · 289 阅读 · 0 评论 -
逻辑回归算法
逻辑回归介绍逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法。 如给的一封邮件,判断是不是垃圾邮件。逻辑回归一般是提供样本和已知模型求回归参数。 逻辑回归算法模型以及模型推导将任意的输入映射到了[0,1]区间,我们在线性回归中可以得到一个预测值,再将该值映射到Sig...原创 2018-09-16 15:43:43 · 5471 阅读 · 1 评论 -
线性回归算法
线性回归什么是线性回归如果我们能够建立了回归背后的数学模型,我们便可以根据输入变量来预测输出量。这个数学模型就是回归方程,里面的系数就是回归系数。求解这些回归系数的过程就是回归。一元线性回归一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为Y;估计出的变量,称自变量,设为X。回归分析就是要找出一个数学模型Y=f(X),使得从X估计Y可以用...原创 2018-09-09 22:08:38 · 2785 阅读 · 0 评论 -
常见的概率公式总结
1.古典概率般说来,如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个,不构成事件A的事件有b个,则出现事件A的概率为:P(A)=a/(a+b)例子:同时掷两枚硬币,可能出现正正、反反、正反、反正四种可能的结果,每种可能出现概率1/42.条件概率公式描述:公式中P(AB)为事件AB的联合概率,P(A|B)为条件概率,表示在B条件下A的概率,P(B)为事件B的...原创 2018-09-08 23:58:46 · 71088 阅读 · 0 评论