
数据挖掘专题
文章平均质量分 68
本专题以数据挖掘的流程为主线,介绍如何利用python进行数据挖掘。
CyrusMay
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据挖掘 —— 模型评估
数据挖掘 —— 模型评估1.分类模型评估(一)1.1 二分类模型1.2 多分类模型1.3 代码2.分类模型评估(二)2.1 ROC 与 AUC2.2 代码1.分类模型评估(一)1.1 二分类模型一般情况下更关注正类混淆矩阵:TP(TruePositive):正确的正类FN(FalseNegative):错误的负类FP(FalseNegative):错误的正类TN(TrueNegative):正确的负类 TN FP FN TP原创 2022-04-06 10:00:57 · 1439 阅读 · 0 评论 -
数据挖掘 —— 半监督学习(标签传播算法)
数据挖掘 —— 半监督学习(标签传播算法)标签传播算法参数解释代码结果标签传播算法参数解释标签传播算法要求为标注数据标签为1LablePropagation(kernel,gamma,n_neighbors)kernel:{“knn”,“rbf”}gamma:rbf中的rn_neighbors:knn中的参数代码from sklearn.datasets import load_irisfrom sklearn.semi_supervised import LabelPropag原创 2022-04-05 16:35:57 · 2074 阅读 · 1 评论 -
数据挖掘 —— 无监督学习(关联)
数据挖掘 —— 无监督学习(关联)Apriori算法代码结果Apriori算法代码from itertools import combinationsdef comb(lst): ret=[] for i in range(1,len(lst)+1): ret+=list(combinations(lst,i)) return retclass AprLayer(object): d=dict() def __init__(self):原创 2022-04-05 16:31:31 · 673 阅读 · 1 评论 -
(数据挖掘 —— 无监督学习(聚类)
数据挖掘 —— 无监督学习(聚类)1. K-means1.1 生成指定形状的随机数据1.2 进行聚类1.3 结果2. 系统聚类2.1 代码2.2 结果3 DBSCAN3.1 参数选择3.2 代码3.3 结果1. K-meansK-Means为基于切割的聚类算法1.1 生成指定形状的随机数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeans原创 2022-04-05 16:26:20 · 1384 阅读 · 3 评论 -
数据挖掘 —— 有监督学习(回归)
数据挖掘 —— 有监督学习(回归)1. 线性回归模型1.1 线性回归模型1.2 岭回归模型1.3 Lasso回归模型2 逻辑回归模型3 回归树与提升树4 总结1. 线性回归模型1.1 线性回归模型from sklearn.linear_model import LinearRegressionLR_model = LinearRegression()LR_model.intercept_ :截距LR_model.coef_ :权重1.2 岭回归模型from sklearn.line原创 2022-04-05 16:17:11 · 1006 阅读 · 0 评论 -
数据挖掘 —— 有监督学习(分类)
数据挖掘 —— 有监督学习(分类)1. KNN分类算法2. 决策树分类算法3. SVM算法简介4. 分类——集成算法4.1 随机森林参数介绍4.2 Adaboost算法参数介绍5 总结1. KNN分类算法预备知识:KD-Tree算法 (KDimensional Tree)在空间中寻找与目标点距离最近的k个点from sklearn.neighbors import NearestNeighborsn_neighbors 为查询的临近点个数algorithm 为查询算法‘ball_t原创 2022-04-05 16:02:21 · 2153 阅读 · 1 评论 -
数据挖掘 —— 探索性数据分析
数据挖掘 —— 探索性数据分析1. 统计检验1.1 正态性检验1.2 卡方检验1.3 独立分布t检验1.4 方差检验1.5 Q-Q图1.6 相关系数2 单因素分析2.1 线性回归2.2 PCA 奇异值分解2.3 主成分分析(PCA自定义实现)3 复合分析3.1 分组分析3.1.1 离散数据分组3.1.2 连续数据分组3.1.3 不纯度(GiNi系数)3.2 相关分析4 因子分析(成分分析)1. 统计检验1.1 正态性检验用于检验数据是否符合正态性分布# 生成正态分布的观测数据norm_data原创 2022-04-05 15:34:24 · 4532 阅读 · 1 评论 -
数据挖掘 —— 数据预处理
数据挖掘 —— 数据预处理1. 数据清洗2. 特征预处理2.1 特征选择2.2 特征变换3 特征降维1. 数据清洗数据清洗包括数据样本抽样和异常值(空值)处理直接丢弃(包括重复数据)把是否有异常当做一个新的属性,替代原值集中指代边界值指代插值import pandas as pdimport numpy as npdf = pd.DataFrame({ "A":['a0','a1','a1','a2','a3','a4'],原创 2022-04-05 15:11:52 · 2336 阅读 · 0 评论 -
机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测
机器学习 聚类篇——DBSCAN的参数选择及其应用于离群值检测摘要python实现代码计算实例摘要DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 为一种基于密度的聚类算法,python实现代码eps:邻域半径(float)MinPts:密度阈值(int).fit(X):对待聚类的数据集进行聚类用法:指定邻域半径和密度阈值,这两个参数对应于不同的数据集需要进行调整,然后直接调用fit(X) 进行数据集的聚类。原创 2021-02-03 16:08:37 · 79447 阅读 · 37 评论 -
机器学习 集成学习篇——python实现Bagging和AdaBOOST算法
机器学习 集成学习篇——python实现Bagging和AdaBOOST算法摘要Bagging算法Adaboost算法摘要本文通过python实现了集成学习中的Bagging和AdaBOOST算法,并将代码进行了封装,方便读者调用。Bagging算法import numpy as npimport pandas as pdclass Cyrus_bagging(object): def __init__(self,estimator,n_estimators = 20):原创 2020-06-12 13:53:30 · 3499 阅读 · 4 评论 -
简单数据分布分析及python实现
简单数据分布分析及python实现数据集中趋势分析平均值中位数众数分位数数据离中趋势分析标准差方差数据的分布分析正态分布卡方分布(x^2^分布)t分布f分布数据集中趋势分析数据集中趋势分析是为了衡量数据的集中程度,常用的集中趋势衡量指标包括数据的平均值、中位数、众数和分位数。平均值和中位数多作为连续数据的衡量指标,众数多作为离散数据的衡量指标。平均值python实现。import pan...原创 2020-04-07 17:29:54 · 5743 阅读 · 0 评论