
数据挖掘
data
serenysdfg
菜鸟在成长
展开
-
聚类
原理先计算样本之间的距离。每次将距离最近的点合并到同一个类。然后,再计算类与类之间的距离,将距离最近的类合并为一个大类。不停的合并,直到合成了一个类。层次聚类算法根据层次分解的顺序分为:自下底向上和自上向下,即凝聚的层次聚类算法和分裂的层次聚类算法(agglomerative和divisive),也可以理解为自下而上法(bottom-up)和自上而下法(top-down)。自下而上法就是一开始每个个体(object)都是一个类,然后根据linkage寻找同类,最后形成一个“类”。自上而下法就是反原创 2020-08-06 00:58:40 · 344 阅读 · 0 评论 -
读取分割数据
读取数据并构建序列字典# - 功能:使用自然数对 movies.dat 中的 movieid 进行重编码 返回值:movieid 到编码 id 的字典def movie_map(file='movies.dat'): movies = read_csv(file, sep='::', header=None,engine='python') value = movies[...原创 2020-02-29 23:43:38 · 199 阅读 · 0 评论 -
聚类
聚类算法种类繁多,且其中绝大多数可以用R实现。需要说明的是,这些算法本身无所谓优劣,取决于数据使用者对于算法的选择是否得当。 。下面将选取普及性最广、 最实用、最具有代表性的5中聚类算法进行介绍,其中包括: ll K-均值聚类(K-Means) ll K-中心点聚类(K-Medoids) ll 密度聚类ll 层次聚类(系谱聚类 Hierarchical Clusteri...原创 2020-02-27 23:33:40 · 440 阅读 · 0 评论 -
AdaBoost介绍
2AdaBoostAdaBoost 是一种监督学习的方法,同时 AdaBoost 也是一种元算法(元算法是对其他算法组合的一种方式),Boosting 算法是一种把若干个分类器整合为一个分类器的方法。Boosting 分类的结果是基于所有分类器的加权求和结果的,boosting 中的分类器的权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。AdaBoost...原创 2020-02-27 23:27:49 · 617 阅读 · 0 评论 -
《python数据挖掘》实战篇
第6章:分类-窃电用户自动识别目标模型构建LM-NET和CART数据划分LM神经网络cart决策树模型评价ROC第7章:聚类-航空公司客户价值分析1RFM模型-传统目标1分析方法与过程-数据预处理2构建kmeans模型(无代码:参考模型章节第8章:关联规则-中医证型挖掘目标:过程(2)属性离散化模型-关联规则有问题-第9章:分类-基于水色图像的水质评价Svm模型第10章 :家用电器用户行为分析与时...原创 2018-06-20 14:29:12 · 5267 阅读 · 0 评论 -
《python数据分析与挖掘》-步骤
第3章数据探索(重要)数据质量分析是数据预处理的前提,是数据挖掘分析结论有效性和准确性的基础,其主要任务是检查原始数据中是否存在脏数据,脏数据包括: 缺失值 异常值 不一致的值 重复数据及含有特殊符号(如#、¥、*)的数据本小节将主要对数据中的缺失值、异常值和一致性进行分析。缺失值统计分析统计缺失值的变量个数统计每个变量的未缺失数统计变量的缺失数及缺失率异常值统计分析-箱型...原创 2018-06-19 12:37:41 · 8075 阅读 · 0 评论 -
Scikit-Learn模型学习手册
转载自程序猿的数据科学与机器学习实战手册https://github.com/wxyyxc1992/AIDL-Series1Scikit-LearnScikit-learn是开源的Python机器学习库,提供了数据预处理、交叉验证、算法与可视化算法等一系列接口。from sklearn import neighbors,datasets,preprocessingfrom sklearn.mode...转载 2018-06-17 22:15:35 · 403 阅读 · 0 评论 -
机器学习名词
训练,测试,验证交叉验证数据集:验证集验证集:假设不知道结果,进行多次验证测试:机器学习模型只能在测试集上跑一次过拟合 (overfit) 和欠拟合 (underfit)过拟合:拟合的过于精确,没什么用欠拟合:不够 accuracy? precision? recall?比喻:你回答真但答案是假,这是假阳性;你回答为假但是答案为真,则为假阴性。很原创 2017-10-16 20:08:18 · 675 阅读 · 0 评论 -
聚类
1爬虫获取数据2选择停用词,词根,构造分词器# 载入 nltk 的英文停用词作为“stopwords”变量stopwords=nltk.corpusstopwords = nltk.corpus.stopwords.words('english')print stopwords[:10]# 载入 nltk 的 SnowballStemmer 作为“stemmer”变量from原创 2017-05-15 22:00:52 · 416 阅读 · 0 评论