
机器学习与数据挖掘
文章平均质量分 80
岱宗雪
记录自己在计算机世界遇到的点点滴滴
展开
-
使用sklearn实现tfidf特征计算
sklearn实现tfidf特征计算原创 2017-08-22 15:40:24 · 10250 阅读 · 1 评论 -
FP-Growth算法理解
第一次接触FP-Growth是在《数据挖掘概念与技术》,当时对它的理解只停留在概念层面。后来又在《机器学习实战》中接触到了它,结合着书中的讲解和代码,跑了点结果,理解加深了一点。最近,工作中需要使用到它,又重新捡起,开始精读和思考,发现收获很大。FP-Growth(Frequent Pattern Growth, 频繁模式增长),它比Apriori算法效率更高,在整个算法执行过程中,只需要遍历原创 2017-08-23 11:45:02 · 16645 阅读 · 1 评论 -
python数据挖掘入门与实战——学习笔记(第3、4章)
chapter 3 决策树预测获胜球队pandas加载数据集import pandas as pddataset = pd.read_csv('filepath+filename')数据清洗,可在读入时清洗dataset = pd.read_csv('filename', parse_date=['Date'], skiprows = [0, ])创建默认字典(val原创 2017-09-06 10:58:37 · 1551 阅读 · 1 评论 -
python数据挖掘入门与实战——学习笔记(第5、6章)
chapter 5 用转换器抽取特征(感觉有点特征工程的意思)本章所讨论的是如何从数据集中抽取数值和类别型特征,并选出最佳特征。特征抽取对于各个实物,我们只有先把现实用特征表示出来,才能借助数据挖掘的力量找到问题的答案。特征选择的另一个优点在于降低真实世界的复杂度。dataframe中的unique函数有点类似于SQL中的distinct,能把一列中互不相同的元素筛选出来。数据原创 2017-09-06 16:46:18 · 976 阅读 · 0 评论 -
bagging与dropout的异同
今天又翻看random forest算法,看到bagging原理的时候,突然觉得怎么bagging和dropout有点相似?bagging是每次构建树的时候,都有一些样本对单棵树不可见,而dropout是每次训练的时候,都有一些神经元对样本不可见。这里的样本、单棵树、神经元都有什么关联?随手百度了下,发现已有人给出了不错的解释,现做一个搬运工,将文章贴于此处,以供日后查阅。以下内容转自博客转载 2018-01-21 21:24:34 · 7377 阅读 · 0 评论