- 博客(295)
- 资源 (12)
- 问答 (1)
- 收藏
- 关注
原创 word2vector
参考文献https://www.jianshu.com/p/1405932293ea用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新的单词加入后,整个向量
2020-05-14 10:17:07
381
原创 spark之coalesce和repartition
如果需要将分区数量减少,需要调用coalesce方法。比如,上层数据很大,你只选取部分数据进行处理,并且要落地。如果不进行充分区,那么接下来有人使用这个数据的时候,分区数量很大,读取的很慢。如果需要将分区数量增加,需要调用repartition方法。加入需要了数据倾斜,或者并行度不够,就需要将数据的分区数量增加。从原理上将,repartition方法就是调用coalesce,但是将s...
2019-12-11 14:45:22
510
原创 spark性能优化
参数优化https://blog.youkuaiyun.com/xwc35047/article/details/71038581
2019-11-07 19:38:59
382
原创 fp-growth算法原理与代码实践
原理https://www.cnblogs.com/datahunter/p/3903413.html代码 import org.apache.spark.mllib.fpm.{FPGrowth, FPGrowthModel} import org.apache.spark.rdd.RDD import spark.implicits._ import com...
2019-10-13 18:14:36
646
原创 RF GBDT LR调参
https://zhuanlan.zhihu.com/p/56940098调参对于随机森林来讲,不会发生很大的波动,即使采用默认值,也可以保持不错的效果。对于随机森林,比较重要的参数有2个:决策树数量;每个决策树最多使用多少特征。对于决策树数量参数:决策树数量越多,效果越好越稳定。但是要在合理范围内,当决策树数量增大到一定数量后,效果基本保持不变。但是随着决策树数量的增...
2019-08-06 15:29:13
949
原创 boost VS adaboost VS 提升树 VS GBDT VS cart树 VS RF
参考文献:李航的统计学习方法Boosting(提升)方法:在分类任务中,通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合,提升分类的性能。这里提升的意思是指,将弱学习算法提升为强学习算法。这里就涉及到两个问题:如何修改样本的权重;如何将多个弱分类器整合成一个强分类器;Adaboost:针对上面提出的两个问题,adaboost是这样解决的:提高被分错样本的权重,降低分对...
2019-07-29 16:37:34
361
原创 特征工程常见问题
1 不均衡问题--类别不均衡如果是类别分布不平衡,有很多方法解决,比如重采样,使用决策树模型(树模型对样本不均衡问题不敏感),样本加权完成,修改损失函数。但是特征分布不均衡,应该怎么做?类别不平衡处理方法https://www.cnblogs.com/JZ-Ser/p/7508531.html1.0 重采样过采样。复制小众类样本的数量,或者利用smote生成。下采样。...
2019-07-17 17:21:17
935
原创 python与GIL锁
python与GIL,并没有直接的关系,和GIL有直接关系的是Cpython解释器,而大多数的python默认解释器是Cpython(底层用C++实现),所以很多人把python与GIL画上等号。但是除了Cpython,解释器还有Jpython,是用java写的,没有GIL。在Cpython中,如果多个线程同时对内存进行操作,难以保持数据的同步和一致性,因此要求一个进程同时只能执行一个线程,每...
2019-07-05 14:50:31
231
原创 归一化 正则化 标准化
标准化是对列进行归一化操作,主要包括:standardScaler: 将特征标准化为单位标准差或是0均值,或是0均值单位标准差。minmaxScaler:将特征的值缩放到[0,1]范围。x=(x-min)/(max-min)MaxAbsScaler:将特征的值缩放到[-1,1]范围。x=x / max|x|为什么要进行标准化操作?在现实生活中,一个目标变量(y)可以认为是...
2019-07-01 18:25:41
1511
原创 常见的机器学习分类模型
Spark mllib包含的分类模型有:逻辑回归,决策树,随机森林,梯度提升树,多层感知机,线性SVM,朴素贝叶斯。回归模型有:线性回归,决策树回归,随机森林回归,梯度提升树回归,生存回归,保序回归。在spark mllib库外,还有一个比较常见的模型:KNN。决策树==================非线性分类模型https://blog.youkuaiyun.com/tuntun...
2019-06-30 17:30:17
15073
原创 常见机器学习聚类算法
聚类最常见的,应该是kmeans。对于spark mllib,除了支持kmeans外,还支持GMM,主题模型LDA。比较常用的聚类模型还有:DBSCAN(密度聚类);层次聚类;K-Means聚类================1.首先,我们选择一些类/组来使用并随机地初始化它们各自的中心点。要想知道要使用的类的数量,最好快速地查看一下数据,并尝试识别任何不同的分组。中心点是与每个...
2019-06-30 15:35:34
826
原创 word2vecotr
用途====================将语料库中的词转化为向量,方便后续在词向量的基础上进行各种计算。实现方法1=============最常见的方法是counting编码N(i,j)表示,单词i和单词j同时出现的次数这种方法存在3个问题:每个单词的向量都很稀疏。虽然可以通过SVD降维,但是这个降维过程需要的计算量也很大;向量没有包含单词的语义内容,只是简单的数量统计;当有新...
2019-06-28 14:37:49
312
原创 CNN卷积神经网络的网络结构和学习原理
卷积神经网络,主要是对图片进行处理。假如需要对一个1000*1000的图片进行分类,如果用传统的机器学习或者DNN,如要输入1000000个特征,当然也可以提前用一些方法进行降维,但是处理还是不方便。有人提出,人类对于图像的判断,也是通过对图像进行多层抽象完成。于是就提出了卷积的概念。图中是一个图形识别的CNN模型。可以看出最左边的船的图像就是我们的输入层,计算机理解为输入若干...
2019-06-27 15:37:33
1488
原创 RNN循环神经网络的物理结构以及工作原理
基础的神经网络只在层与层之间建立了权连接,RNN最大的不同之处就是在层之间的神经元和建立连接(红线箭头指向部分)。输入层的权值为U,各层之间的权值W,隐藏层到输出层的输出层的权值为V。权值是共享的。非输出层的激活函数一般为tanh函数,即:h=tanh(Ux+Wh+b)输出层不需要激活函数 o=Vh+c最终模型的输出为y’=softmax(o)Softmax函数将...
2019-06-27 14:09:06
792
原创 关于“什么是数据挖掘”经典的解释
在校期间听了一次学术报告,是美国一个大牛学校的大牛教授做的演讲,主要讨论问题是“大数据时代的数据挖掘”该大牛对数据挖掘做了一个精辟的总结:报告内容:数据挖掘(Data Mining)(或知识发现,Knowledge Discovery)泛指从大量数据中挖掘出隐含的、先前未知但潜在有用的信息和模式的一个工程化和系统化的过程。在大数据时代里,数据的产生和收集是基础,数据挖掘是工具和手段,是大数据中最关...
2018-03-14 11:06:26
795
转载 keras + LSTM
深度学习的主要框架有keras,caffe,tensorflow,theanokeras可以在theano与TensorFlow间轻松 切换,且容易上手。这里分享一个keras的快速入门教程http://keras-cn.readthedocs.io/en/latest/下面是keras框架下使用LSTM实现情感分类的例子http://blog.youkuaiyun.com/weixin_...
2017-09-16 16:15:44
1812
原创 线性回归 逻辑回归 树回归
为什么逻辑回归要用sigmoid函数?首先sigmoid函数曲线非常漂亮,连续平滑且对称,当输入值趋于无限大或者无限小时,函数值趋于0和1,对输入不是很敏感。由于该函数求导是连续平滑的,而逻辑回归在梯度方向搜索最优权值,所以该函数比较好。逻辑回归也可以用其他分类函数,比如softmax,现在进行比较:分类判别函数在神经网络中比较常用的是sigmoid函数和softmax函数。...
2017-06-30 20:47:25
1327
原创 python+GBDT实现数值预测
关于GBDT的理论介绍以及实际生活例子,可以看下面链接http://www.360doc.com/content/14/0911/22/14875906_408775170.shtmlhttps://blog.youkuaiyun.com/zhangbaoanhadoop/article/details/81840669http://www.cnblogs.com/LeftNotEasy/archi...
2017-03-27 11:29:30
10578
2
原创 基于spark用线性回归(linear regression)进行数据预测
ubuntu+spark+scala实现线性回归(linear regression)算法(代码+数据)
2017-03-08 13:05:48
15037
6
原创 spark下rdd和dataframe以及sqlcontext之间相互转换
spark下rdd和dataframe以及sqlcontext之间相互转换
2017-03-04 20:19:53
4116
1
包括使用简单的tableview,自定义cell以及界面的跳转,本地存储
2015-10-11
xfire开发webservice以及Android利用ksoap2访问webservice
2015-02-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人