Alexander plus
Work until you don't have to introduce yourself.....
展开
-
9、【EM算法】之GMM应用
在已知隐变量个数的情况下,gmm的聚类效果会比K-means要好得多原创 2022-07-03 10:13:16 · 241 阅读 · 0 评论 -
【聚类】之浅谈(对比K-means跟DB-scan)
【聚类】之浅谈(对比K-means跟DB-scan)原创 2022-06-24 08:14:04 · 283 阅读 · 0 评论 -
8、【文本分析】之TF-IDF、LDA主题模型的实战演练进行数据向量化(并用贝叶斯进行新闻分类)
8、【文本分析】之TF-IDF、LDA主题模型的实战演练进行数据向量化(并用贝叶斯进行新闻分类)原创 2022-06-19 17:04:39 · 536 阅读 · 0 评论 -
7、【贝叶斯算法】之实现一个简单的拼写纠正补全器
* P(c), 文章中出现一个正确拼写词 c 的概率, 也就是说, 在英语文章中, c 出现的概率有多大* P(w|c), 在用户想键入 c 的情况下敲成 w 的概率. 因为这个是代表用户会以多大的概率把 c 敲错成 w* argmaxc, 用来枚举所有可能的 c 并且选取概率最大的...原创 2022-06-19 09:20:39 · 216 阅读 · 0 评论 -
6、【集成学习】之bagging、boosting、stacking浅析
6、【集成学习】之bagging、boosting、stacking浅析原创 2022-06-19 07:32:10 · 214 阅读 · 0 评论 -
5、【Grid_Search-K折合交叉验证】使用网格搜索进行k折合交叉验证寻找最佳算法参数组合
上次案例中,通过手动写K折合交叉验证找出了最佳参数,然而在最终预测结果上并不理想,故此处使用sklearn自带的Grid_Search库进行搜索。原创 2022-06-18 09:03:19 · 325 阅读 · 0 评论 -
4、【逻辑回归】信用卡欺诈检测(下采样、SMOTE,调整sigmod函数阈值)
对于一个二分类问题,首先想到的还是逻辑回归!(我愿称逻辑回归为最nb的二分类算法,目前为止)原创 2022-06-16 19:23:11 · 1036 阅读 · 0 评论 -
3、【正式建模】之数据划分、模型选择以及模型评估、调优
【正式建模】之数据划分、模型选择以及模型评估、调优原创 2022-06-15 08:58:07 · 183 阅读 · 0 评论 -
2、【数据特征预处理】(接上一章特征抽取即转文本数据为数值数据后,特征的标准化、缺失值处理以及特征值选择)
机器学习预处理详细流程,理论+demo原创 2022-06-12 11:35:08 · 187 阅读 · 0 评论 -
1、【特征抽取(NLP)】机器学习之特征工程和文本特征的提取
1、机器学习之特征工程和文本特征的提取原创 2022-06-10 17:10:23 · 325 阅读 · 0 评论 -
利用鸢尾花数据集复现DBSCAN密度聚类算法
利用鸢尾花数据集复现DBSCAN密度聚类算法原创 2022-04-08 14:58:33 · 4979 阅读 · 1 评论 -
利用鸢尾花数据集对比贝叶斯分类器跟决策树的分类情况 (非二元分类 三分类问题)
对于这样一个简单的三分类问题,我打算直接采用2.5:7.5的划分并用贝叶斯跟决策树分别训练对比分类效果,详细步骤如下:原创 2022-03-21 11:04:02 · 2959 阅读 · 0 评论 -
KDD碎片化学习
解释频繁项集等等https://blog.youkuaiyun.com/u013007900/article/details/54743395原创 2021-06-10 15:21:35 · 155 阅读 · 0 评论 -
KDD初见
KDD数据挖掘概述数据类型数据预处理清洗集成选择变换挖掘模式评估知识表示OLAP / OLTP关联挖掘分析AprioriFp-growth分类决策树贝叶斯Knn聚类K-meansThe DC technology has been still remembered rolling up!The\ DC\ technology\ has\ been\ still\原创 2021-06-10 15:08:43 · 207 阅读 · 0 评论 -
简要理解元数据
https://baijiahao.baidu.com/s?id=1670820260243417758&wfr=spider&for=pc注:个人理解即为描述数据的数据比如(电脑存储系统的版本号,电脑的服务器…)转载 2021-06-10 15:07:47 · 182 阅读 · 0 评论 -
关联挖掘分析(Apriori算法)
https://www.cnblogs.com/en-heng/p/5719101.html原创 2021-05-11 08:37:58 · 151 阅读 · 0 评论 -
规范化
数据规范化数据规范化(归一化)处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲,数值见的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。如将工资收入属性值映射到[-1, 1]或者[0, 1]内。== 数据规范化对于基于距离的挖掘算法尤为重要。==最小-最大规范化最小-最大规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。转换转载 2021-05-07 17:40:41 · 484 阅读 · 0 评论 -
用jieba 实现中文关键词提取(TF-IDF/TEXT-RANK)
代码块:s = "此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。"for x, w in jieba.analyse.extract_tags(s, withWeight=True): print('%s %s' % (x, w))print("==============原创 2021-05-07 16:46:30 · 435 阅读 · 0 评论 -
二、数据仓库和数据挖掘的OLAP技术
数据仓库和数据挖掘的OLAP技术引言一、什么是数据仓库二、数据仓库的关键特征2.1、面向主题2.2、数据集成2.3、随时间而变化2.4、数据不易丢失三、数据仓库的构建和使用四、数据仓库与操作数据库系统五、多维数据模型引言数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤数据仓库提供OLAP工具,可用于不同粒度的数据分析很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现分类预测关联聚集一、什么是数据仓库数据仓库的定义很多,但却很难有一种严格的定义:原创 2021-04-21 17:39:20 · 664 阅读 · 0 评论 -
一、绪论
数据挖掘绪论一、什么是数据挖掘二、kDD的步骤三、典型数据挖掘系统的体系结构三、在何种数据上进行数据挖掘四、数据挖掘应用五、数据挖掘可以挖掘哪些模式5.1、概念/类描述: 特性化和区分5.2、关联分析5.3、分类和预测5.4、聚类分析5.5、孤立点分析5.6、趋势和演变分析六、什么样的模式是有趣的七、数据挖掘系统的分类八、数据挖掘的主要问题一、什么是数据挖掘二、kDD的步骤数据清理: (这个可能要占全过程60%的工作量)数据集成数据选择数据变换数据挖掘(选择适当的算法来找到感兴趣的模式)原创 2021-04-21 17:03:50 · 179 阅读 · 0 评论