
数据挖掘
足下之臣
呵,谁说光会让人充满希望,不在黑暗之中,你又怎么能区分什么才是光芒呢?
展开
-
聚类模型以及分群质量评估
聚类分析:用于客户细分极为重要。三类常见的聚类模型,K-Means,层次聚类,最大期望EM算法,其他的还有密度聚类如何评价聚类结果好坏,一些常用的指标又有哪些聚类分析的目的:让类群内观测的距离最近,同时不同全体之间的距离最大1.聚类分析的距离问题:样本聚类距离:欧式距离,绝对值距离,明式距离,马氏距离。概率分布的距离衡量:k_l代表P,Q概率分布差的期望聚类分析一般要进行标准化,因为聚类...原创 2019-03-20 08:45:53 · 2361 阅读 · 0 评论 -
数据分析与数据挖掘的简单了解
数据分析:对数据进行处理,用一些比较直观的形式分析 现状,原因,预测,不能建模数据挖掘:对数据进行采集,处理,并且建模最终完成预测,数据挖掘一般分为四类:分类,聚类,关联,预测四类任务两者的区别在于数据分析在于对数据的观察,而数据挖掘在与挖掘其内在的规则,完成建模,预测,他们两个的界限其实没有必要分那么清,而且在工作当中,数据挖掘工程师很可能也在做数据分析,个人觉得,数据分析比较侧重与业务。...原创 2019-03-18 10:23:20 · 949 阅读 · 0 评论 -
最大熵模型
1.最大熵模型:联合分布,边缘分布,条件分布, 经验分布为了避免混淆三种分布的定义,这里举一个最简单的例子。设 x,y的联合分布如下(横轴是x的取值,纵轴y是的取值) x/y0.1 0.3 0.1 0.50.2 0.2 0.1 0.50.3 0.5 0.2 1两者的边缘分布为0.5 0.5 两个表格的分割线 0.3 0.5 0.2条件分布为:在特定的条件下这个事情发...原创 2019-03-18 10:40:52 · 470 阅读 · 0 评论 -
隐马尔科夫模型
2.马尔科夫模型,https://blog.youkuaiyun.com/DeepOscar/article/details/81036635https://blog.youkuaiyun.com/maverick17/article/details/79574917马尔科夫性:只要知道现在,将来和过去条件独立定义:如果在t时刻的状态St满足如下等式,那么这个状态被称为马尔科夫状态,或者说该状态满足马尔科夫性。...原创 2019-03-18 11:25:20 · 221 阅读 · 0 评论 -
朴素贝叶斯(NB)
生成模型:是一种条件概率。常见的有隐马尔科夫模型,朴素贝叶斯,判别模型:SVM,逻辑回归,条件概率伯努利分布:只有0-1两种情况,例如抛硬币事件。伯努利试验是只有两种可能结果的单次随机试验二项分布:n重伯努利试验成功次数的离散概率分布,伯努利分布是二项分布在n=1时的特例。二项分布名称的由来,是由于其概率质量函数中使用了二项系数多项分布:二项式分布的推广。如果现在还是做n次试验,只不过每次...原创 2019-03-18 19:17:02 · 426 阅读 · 0 评论 -
感知机以及梯度下降法,最小二乘法,偏差,方差,协方差
.感知机:感知机的模型就是尝试找到一条直线,能够把位于一个平台上所有的男孩和女孩隔离开。放到三位或者更高维空间,感知机的模型就是尝试找到一个超平面,把所有的二元类别隔离开。如果找不到这样的直线,那就说明感知机模型不合适,感知机应用于线性可分。感知机的话他的解不是唯一的,只要能把两类分开即可,在实际应用中感知机的对偶形式比原始问题运算要快的多损失函数的优化目标,就是期望使误分类的所有样本,到超平...原创 2019-03-18 20:38:48 · 1313 阅读 · 0 评论 -
相似度计算,关键词提取,标准化方法,sigmoid
几种相似度方法:jaccard适合离散型的,评分不适合,欧几里得距离,需要保证量纲一样余弦相似度:更加注重方向上而非距离上皮尔森(person)相关系数:利用向量间的线性相关性表示用户相似度,https://www.cnblogs.com/bethansy/p/9544293.html关键词提取的方法:tf-idf方法,忽略词序,词义textrank,word2vec+k...原创 2019-04-01 21:00:51 · 1876 阅读 · 0 评论 -
排序算法:快速排序,冒泡排序,插入排序,选择排序
冒泡排序:通过比较的方式,从大到小排序的话,两个比较,把最大的一个放在最后一个,循环迭代def BubbleSort(lst):n=len(lst)if n<=1:return lstfor i in range (0,n):for j in range(0,n-i-1):if lst[j]>lst[j+1]:(lst[j],lst[j+1])=(lst[j+1],ls...原创 2019-04-14 21:25:05 · 410 阅读 · 0 评论