
数据挖掘
SZU_Hadooper
数据挖掘工程师
展开
-
Aprior 算法
Apriori 算法:(hadoop中实现)第一步:统计项的频度 (用一个MR统计出来)假设是一个矩阵U1 app1 , app3U2 app1 , app2 , app3U3 app2 , app3 把矩阵看成一行行的向量U1app1 , app3>U2app1 , app2 , app3>U3a原创 2017-01-07 21:11:28 · 743 阅读 · 0 评论 -
FP树挖掘算法实现
Fptree算法: FP-growth算法,采用的是分而治之的思想,在挖掘的过程中不会像Apriori算法那样,产生大量的候选集,Apriori算法中如果有10^4个频繁一项集会导致10^7个频繁二项集,而对长度为100的频繁模式,会产生2^100个候选,并且在重复扫描数据库的过程中,通过模式匹配检查一个很大的候选集是很耗时间的,FP-tree在经过第一遍扫描之后,会把数据库中的频集压缩原创 2017-01-19 20:58:13 · 4217 阅读 · 0 评论 -
XGboost详解
前言 作为一个非常有效的机器学习方法,Boosted Tree是数据挖掘和机器学习中最常用的算法之一。因为它效果好,对于输入要求不敏感,往往是从统计学家到数据科学家必备的工具之一,它同时也是kaggle比赛冠军选手最常用的工具。最后,因为它的效果好,计算复杂度不高,也在工业界中有大量的应用。Boosted Tree的若干同义词 说到这里可能有人会问,为什么我没有听过这个名字。这是因为Boost转载 2018-01-02 14:54:47 · 705 阅读 · 0 评论 -
L1正则和L2正则理解
相交的点就是θ\theta的解原创 2018-01-02 20:15:15 · 694 阅读 · 0 评论 -
交叉验证
sklearn中train_test_split将训练数据的一部分留出来做校验,不参与模型参数训练 – 优点:速度快 – 缺点:训练数据减少,一次校验集的划分会带来随机性交叉验证(corss-valisation, CV),但训练时间延长 – 适合训练数据规模较大的情况(如上百万条记录) – 适合训练慢的机器学习模型k-折交叉验证:将训练数据等分成k份(k通常的取值为3、5或10) – 重转载 2018-01-03 11:01:16 · 2036 阅读 · 0 评论