
数据挖掘
文章平均质量分 70
tuntunwang
理解透彻,信手拈来。
展开
-
word2vector
参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新的单词加入后,整个向量原创 2020-05-14 10:17:07 · 384 阅读 · 0 评论 -
线性回归 逻辑回归 树回归
为什么逻辑回归要用sigmoid函数?首先sigmoid函数曲线非常漂亮,连续平滑且对称,当输入值趋于无限大或者无限小时,函数值趋于0和1,对输入不是很敏感。由于该函数求导是连续平滑的,而逻辑回归在梯度方向搜索最优权值,所以该函数比较好。逻辑回归也可以用其他分类函数,比如softmax,现在进行比较:分类判别函数在神经网络中比较常用的是sigmoid函数和softmax函数。...原创 2017-06-30 20:47:25 · 1327 阅读 · 0 评论 -
python+GBDT实现数值预测
关于GBDT的理论介绍以及实际生活例子,可以看下面链接http://www.360doc.com/content/14/0911/22/14875906_408775170.shtmlhttps://blog.youkuaiyun.com/zhangbaoanhadoop/article/details/81840669http://www.cnblogs.com/LeftNotEasy/archi...原创 2017-03-27 11:29:30 · 10580 阅读 · 5 评论 -
利用XGBoosting进行预测
pyhton + XGBoosting 进行回归预测原创 2017-03-26 15:56:09 · 15006 阅读 · 12 评论 -
python+ARIMA 进行时间序列处理
利用ARIMA进行时间序列处理原创 2016-05-20 15:01:17 · 18455 阅读 · 2 评论 -
决策树
下面给大家介绍一个最经典的监督学习算法:决策树决策树,就是我们之前接触过的判断树,和流程图也有点类似。决策树虽然实现起来麻烦一点,但是理解起来很容易,而且在很多场景下都合适。决策树的生成,主要是根节点的选取和叶子节点的确定。根节点主要选择信息增益最大的那个属性作为当前树的根节点。当达到停止条件的时候,要将当前节点作为叶子节点。合适的根节点和停止条件,可以防止树过大和数据的过度拟合。同时也有...原创 2016-01-26 15:15:13 · 1706 阅读 · 0 评论 -
文本搜索过程以及倒排搜索
快速理解全文搜索以及倒排索引原创 2017-09-21 10:57:07 · 1378 阅读 · 0 评论 -
关于“什么是数据挖掘”经典的解释
在校期间听了一次学术报告,是美国一个大牛学校的大牛教授做的演讲,主要讨论问题是“大数据时代的数据挖掘”该大牛对数据挖掘做了一个精辟的总结:报告内容:数据挖掘(Data Mining)(或知识发现,Knowledge Discovery)泛指从大量数据中挖掘出隐含的、先前未知但潜在有用的信息和模式的一个工程化和系统化的过程。在大数据时代里,数据的产生和收集是基础,数据挖掘是工具和手段,是大数据中最关...原创 2018-03-14 11:06:26 · 795 阅读 · 0 评论 -
归一化 正则化 标准化
标准化是对列进行归一化操作,主要包括:standardScaler: 将特征标准化为单位标准差或是0均值,或是0均值单位标准差。minmaxScaler:将特征的值缩放到[0,1]范围。x=(x-min)/(max-min)MaxAbsScaler:将特征的值缩放到[-1,1]范围。x=x / max|x|为什么要进行标准化操作?在现实生活中,一个目标变量(y)可以认为是...原创 2019-07-01 18:25:41 · 1511 阅读 · 0 评论 -
常见机器学习聚类算法
聚类最常见的,应该是kmeans。对于spark mllib,除了支持kmeans外,还支持GMM,主题模型LDA。比较常用的聚类模型还有:DBSCAN(密度聚类);层次聚类;K-Means聚类================1.首先,我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量,最好快速地查看一下数据,并尝试识别任何不同的分组。中心点是与每个...原创 2019-06-30 15:35:34 · 826 阅读 · 0 评论 -
常见的机器学习分类模型
Spark mllib包含的分类模型有:逻辑回归,决策树,随机森林,梯度提升树,多层感知机,线性SVM,朴素贝叶斯。回归模型有:线性回归,决策树回归,随机森林回归,梯度提升树回归,生存回归,保序回归。在spark mllib库外,还有一个比较常见的模型:KNN。决策树==================非线性分类模型https://blog.youkuaiyun.com/tuntun...原创 2019-06-30 17:30:17 · 15074 阅读 · 0 评论 -
boost VS adaboost VS 提升树 VS GBDT VS cart树 VS RF
参考文献:李航的统计学习方法Boosting(提升)方法:在分类任务中,通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合,提升分类的性能。这里提升的意思是指,将弱学习算法提升为强学习算法。这里就涉及到两个问题:如何修改样本的权重;如何将多个弱分类器整合成一个强分类器;Adaboost:针对上面提出的两个问题,adaboost是这样解决的:提高被分错样本的权重,降低分对...原创 2019-07-29 16:37:34 · 361 阅读 · 0 评论 -
特征工程常见问题
1 不均衡问题--类别不均衡如果是类别分布不平衡,有很多方法解决,比如重采样,使用决策树模型(树模型对样本不均衡问题不敏感),样本加权完成,修改损失函数。但是特征分布不均衡,应该怎么做?类别不平衡处理方法https://www.cnblogs.com/JZ-Ser/p/7508531.html1.0 重采样过采样。复制小众类样本的数量,或者利用smote生成。下采样。...原创 2019-07-17 17:21:17 · 935 阅读 · 0 评论 -
RF GBDT LR调参
https://zhuanlan.zhihu.com/p/56940098调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。对于决策树数量参数:决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增...原创 2019-08-06 15:29:13 · 950 阅读 · 0 评论 -
朴素贝叶斯
结合实例介绍朴素贝叶斯和朴素贝爷文本分类(理论知识,习题,Python代码)原创 2016-01-26 15:12:36 · 1194 阅读 · 0 评论 -
SVM原理---公式推导以及核函数
首先从引用场景开始推导公式,最后介绍核函数,松弛变量,软间隔原创 2017-06-28 10:04:24 · 3856 阅读 · 0 评论 -
分类器的评价
系统介绍分类器的评价原创 2016-01-26 15:18:48 · 572 阅读 · 0 评论 -
如何将关系型数据转换为事务型数据
简答介绍怎么将关系型数据转换为事务型数据原创 2016-01-26 15:23:22 · 1849 阅读 · 0 评论 -
利用apriori算法进行关联规则挖掘
结合实例介绍如何利用apriori算法挖掘关联规则原创 2016-01-26 15:38:00 · 1493 阅读 · 1 评论 -
如何利用关联规则进行分类
简单的介绍如何利用关联规则进行分类原创 2016-01-26 15:42:00 · 3268 阅读 · 1 评论 -
zeppelin的安装与使用
zeppelin是一个数据可视化工具,,本文介绍它的按照,配置和使用方法原创 2016-05-06 10:12:48 · 2017 阅读 · 0 评论 -
指数平滑法
指数平滑法中a值的确定原创 2016-05-21 20:22:37 · 3975 阅读 · 0 评论 -
时间序列处理工具选择
哪些根据可以用于时间序列分析原创 2016-05-21 20:28:22 · 1410 阅读 · 0 评论 -
pageRank
结合实例告诉大家PageRank是怎么工作的原创 2016-01-27 15:51:32 · 644 阅读 · 0 评论 -
社区发现算法
快速了解社区发现的经典算法原创 2016-06-15 16:34:13 · 1125 阅读 · 0 评论 -
BMLPA----平衡多标签传播算法
BMLPA算法,可以将一个节点划分到多个社区原创 2016-07-09 10:07:10 · 3375 阅读 · 0 评论 -
k最近邻(k-nn)
简短清晰的介绍k最近邻原创 2016-01-26 15:03:58 · 1376 阅读 · 0 评论 -
lda原理及python代码
lda可以从大量文档中生成主题,这里提供了python原理,代码和参考手册原创 2016-09-25 10:07:05 · 2618 阅读 · 0 评论 -
python+神经网络实现时间序列预测
利用python语言进行时间序列处理原创 2017-03-26 15:31:04 · 27867 阅读 · 10 评论 -
em算法
在半监督学习中,根据数据,可以进一步分为LU学习算法和PU学习算法。如果得到的数据集中,包含的是一部分labeled record 和 unlabeled record。我们称之为LU学习算法;如果得到的是positive record(正例)和unlabeled record,称为PU算法。对于LU学习,学习思想一般是EM(最大期望)和CO_TRANING。当数据集的属性是互相独立的时候原创 2016-01-26 14:59:29 · 639 阅读 · 0 评论