
机器学习
Smilhe_
这个作者很懒,什么都没留下…
展开
-
机器学习(一)导论
文章目录一、机器学习应用领域1、数据挖掘机器学习相关(传统的监督学习/深度学习)2、计算机视觉(深度学习)3、自然语言处理(深度学习)4、机器人决策二、机器学习理论分类1、传统监督学习2、深度学习3、强化学习三、什么是机器学习?1、学习算法2、监督学习3、无监督学习一、机器学习应用领域数据挖掘计算机视觉(机器读懂图片)自然语言处理(机器理解文字)机器人决策(机器可以做决策)1、数据挖掘...原创 2019-01-10 18:34:41 · 249 阅读 · 0 评论 -
机器学习(六):贝叶斯
文章目录一、条件概率1. 介绍2. 举例2.1 分析2.2 计算二、拼字纠错案例1. 介绍2. 代码实现2.1 计算词频2.2 编辑距离2.3 计算拼错概率一、条件概率1. 介绍条件概率:指在事件B发生的情况下,事件A发生的概率,用P(A|B)表示。在事件B发生的情况下,事件A发生的概率:推导得:同理得:因此:贝叶斯公式:这里把P(A)称为“先验概率”,也就是在B事件...原创 2019-08-06 18:08:45 · 592 阅读 · 0 评论 -
数据挖掘实战(四):模型评估
文章目录一、模型评估方法二、代码实现任务要求:记录5个模型(逻辑回归、SVM、决策树、随机森林、XGBoost)关于accuracy、precision,recall和F1-score、auc值的评分表格,并画出ROC曲线一、模型评估方法举例一:假设有1000个病人的数据,要对1000个病人进行分类,有哪些是癌症的?哪些不是患有癌症的?假设其中有990个人不患癌症,10个人是患癌症。(1...原创 2019-08-14 09:07:46 · 773 阅读 · 0 评论 -
数据挖掘实战(三):模型构建
用逻辑回归、svm和决策树;随机森林和XGBoost进行模型构建,评分方式任意,如准确率等。(不需要考虑模型调参)1、数据处理import matplotlib.pyplot as pltimport pandas as pdimport numpy as npdf = pd.read_csv('data.csv',encoding='gbk')df_raw = df.copy()d...原创 2019-08-11 09:35:03 · 391 阅读 · 0 评论 -
数据挖掘实战(五):模型调优
文章目录一、K折交叉验证和网格搜索法1、K折交叉验证2、网格搜索法二、代码实现1、利用GGridSearchCV调参1.1 参数1.2 划分数据集1.3 模型用字典集合1.4 查看参数2、参数优化前后对比使用网格搜索法对5个模型进行调优(调参时采用五折交叉验证的方式),并进行模型评估,记得展示代码的运行结果。一、K折交叉验证和网格搜索法1、K折交叉验证K折交叉验证(k-fold cross...原创 2019-08-15 16:04:34 · 961 阅读 · 0 评论 -
机器学习(七):贝叶斯之新闻分类器
文章目录一、文档与关键词提取1、 停用词2、Tf-idf:关键词提取3、相似度二、新闻分类器1、 数据2、 分词:使用结巴分词器3、 TF-IDF:整个文章关键词提取4、 LDA:主题模型5、基于贝叶斯算法进行新闻分类一、文档与关键词提取1、 停用词在一篇文档中,有很多停用词,比如“今天”、“明天”、“一下”…这些词对文本的分析都没有用处,跟主题没有关系。2、Tf-idf:关键词提取TF...原创 2019-08-12 10:25:02 · 1471 阅读 · 0 评论 -
机器学习(五):决策树
文章目录一、决策树1、简介2、衡量标准-熵3、如何选择节点4、决策树算法5、决策树剪枝策略5.1 为什么剪枝5.2 剪枝策略6、代码实现一、决策树1、简介决策树是一个树结构,每个非叶子节点表示一个特征属性,每个叶子节点存放一个类别。进行决策的过程就是从根节点开始一步步走到叶子节点。训练阶段:根据给定数据集,从根节点开始选择特征,构造出一棵树。测试阶段:根据构造出来的树模型从上到下走一遍。...原创 2019-08-01 15:48:12 · 1043 阅读 · 0 评论 -
机器学习(二)监督学习:线性回归
文章目录一、单变量的线性回归1、举例:预测房价2、如何选择合适的参数原创 2019-01-10 18:46:43 · 569 阅读 · 0 评论 -
Sklearn学习笔记
文章目录1、Scikit learn 简介2、通用学习模式(2)数据集(3)代码(4)输出结果3、sklearn强大数据库(1)示例(2)也可以生成虚拟的数据四、sklearn的属性和功能5、正则化(1)示例(2)数据标准化对机器学习的影响1)不进行归一化2)进行归一化6、交叉验证(1)Model交叉验证法(2)以准确率判断分类模型的好坏(3)以平均方差判断回归模型的好坏1、Scikit lea...原创 2019-01-05 20:32:23 · 854 阅读 · 0 评论 -
机器学习(三):逻辑回归
文章目录一、问题的引入二、逻辑回归模型1、函数:2、根据图像,可知:3、代价函数3、梯度下降求使得代价函数最小的参数三、代码实现1、前言2、数据2、建立分类器3、损失函数,计算损失4、计算每个参数的梯度三、三种不同的梯度下降方法1、三种停止策略2、三种梯度下降方法2.1 洗牌2.2 梯度下降求解一、问题的引入在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。比如:判断一封电...原创 2019-07-26 18:37:07 · 231 阅读 · 0 评论 -
机器学习(四):逻辑回归实战——信用卡欺诈检测
文章目录1、数据2、样本不均衡解决方案3、交叉验证4、模型评估方法5、正则化惩罚6、混淆矩阵7、逻辑回归阈值对于结果的影响8、SMOTE算法1、数据数据链接在此https://pan.baidu.com/s/1APgU4cTAaM9zb8_xAIc41Q密码: xgg7import pandas as pdimport matplotlib.pyplot as pltimport nu...原创 2019-07-26 18:57:55 · 1977 阅读 · 0 评论 -
数据挖掘实战(一):数据分析
文章目录一、数据集二、数据分析1. 数据分析1.1查看数据类型1.2 查看缺失值1.3 查看每列某类重复值占的最大比例2. 无关特征删除3. 数据类型处理4. 缺失值填补三、总结一、数据集本次数据集是金融数据,做的是预测贷款用户是否会逾期。一共有89个特征,表格中 “status” 是结果标签:0表示未逾期,1表示逾期。部分数据集如下:对数据进行处理:数据类型的分析、无关特征删除、数据类型...原创 2019-08-05 21:13:06 · 1008 阅读 · 0 评论 -
数据挖掘实战(二):特征工程
文章目录一、特征衍生二、特征选择1. 利用随机森林做特征选择2. 利用IV值做特征选择2.1 WOE2.2 IV2.3 代码实现3. 利用相关系数做特征选择一、特征衍生特征衍生是现有的特征进行某种组合,生成新的具有含义的特征。举例:下面有份数据集,这份数据表示的是用户在电商平台上的购物行为(购物行为0表示点击但未购买,1表示购买)通过这份数据(1〜9月的购物数据),需要解决的场景是预测...原创 2019-08-08 16:49:45 · 948 阅读 · 0 评论 -
数据挖掘实战(六):模型融合
文章目录一、模型融合简介1、Voting2、Averaging3、Stacking二、Stacking代码实现任务:模型融合,模型融合方式任意,并结合Task5给出你的最优结果。例如Stacking融合,用你目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分结果。一、模型融合简介1、Voting从最简单的Voting说起,这也可以说是一种模型融合。假设...原创 2019-08-18 11:33:20 · 451 阅读 · 0 评论