
机器学习
Jianhao92
这个作者很懒,什么都没留下…
展开
-
12 机器学习 数据探索性分析 机器学习项目实战
机器学习1 数据探索性分析1.1 介绍数据探索性分析,Exploratory Data Analysis(EDA),是指对已有数据在尽量少的先验假设下,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。获得数据后,首先需要进行数据探索性分析。作用:获得对数据集的感性认识。对特征间的关系以及特征与标签间的关系进行初步分析有助于熟悉数据集;为数据预处理过程提供灵感与思路。例如数据的异常值和缺失值处理等,这样做可以确保数据集的结构和特征在接下来的问题分析过程中更原创 2020-08-08 22:02:17 · 2862 阅读 · 0 评论 -
11 机器学习 集成学习 随机森林
机器学习1 集成学习1.1 介绍集成学习,Ensemble Learning,可以理解为由许多算法按照某种策略集成在一起的算法框架。集成学习的作用单一的模型很可能不够强大集成学习会考虑多个评估器的建模结果,汇总后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。模型选择问题构建模型的目标是训练出一个稳定的且在各个方面表现都很好的模型,但实际情况往往不这么理想。有时只能获得许多个有偏好的模型(弱监督模型),这些模型仅仅在某些方面的表现比较好。集成学习就是通过将多个弱监督模型组合在一原创 2020-08-25 21:07:39 · 1166 阅读 · 0 评论 -
10 机器学习 决策树
决策树1 决策树1.1 决策树简介决策树(Decision Tree)属于有监督学习算法,决策树算法能够从一系列带有特征和标签的数据中总结出决策规则,通过树状图结构来呈现出这些规则,以解决分类和回归问题。1.2 节点根节点:没有进边,有出边。包含最初的,针对特征的提问。中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签。子节点和父节点:在两个相连的节点中,更接近根节点的是父节点,另一个是子节点。1.3 节原创 2020-08-04 20:58:53 · 536 阅读 · 0 评论 -
9 机器学习 支持向量机
机器学习1 支持向量机1.1 介绍支持向量机,Support Vector Machines(SVM)。核心思想是从输入空间(Input Space)向特征空间(Feature Space)的映射,在映射后的空间(即特征空间)进行分类操作,在特征空间中,问题能够简化成线性可分的问题。...原创 2020-08-09 15:56:39 · 435 阅读 · 0 评论 -
8 机器学习 逻辑回归案例 制作评分卡 聚类算法 KMeans算法
机器学习1 逻辑回归案例 制作评分卡1.1 项目介绍目标:制作金融申请评分卡特征介绍特征名称描述SeriousDlqin2yrs好坏客户出现90天及更长时间的逾期行为,用于定义好坏客户。RevolvingUtilizationOfUnsecuredLines可用额度比值贷款或信用卡可用额度与总额度的比例。age年龄借款人借款时年龄。NumberOfTime30-59DaysPastDueNotWorse逾期30-59天笔数过去两年内出现30-原创 2020-08-09 09:43:32 · 1754 阅读 · 0 评论 -
7 机器学习 逻辑回归 分类模型的评价指标 混淆矩阵
机器学习1 逻辑回归1.1 介绍回归模型是用来处理连续型标签样本的算法模型。逻辑回归模型是一种广泛应用于分类问题中的回归模型。1.1.1 线性回归z=θ0+θ1x1+θ2x2+...+θnxnz=[θ0,θ1,θ2...θn]\begin{aligned}z =& \theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n \\[5ex]z =& [\theta_0, \theta_1, \theta_2 ...原创 2020-08-09 09:41:19 · 2379 阅读 · 1 评论 -
6 机器学习 IV与WOE 分箱 过抽样与欠抽样
机器学习1 IV编码与WOE编码1.1 IV编码1.1.1 介绍IV编码,Information Value,指的是信息价值或者信息量。IV编码可以理解为特征筛选的量化指标, 用于衡量数据特征的预测能力或者在模型预测过程中对预测结果的影响程度。关于衡量特征预测能力的理解假设在一个分类问题中,数据集分为两种标签类别:Y1和Y2。对于一个待预测的样本A,要判断其属于类别Y1还是类别Y2,我们需要一定的信息,假设这个信息总量是I,而这些信息蕴含在待预测样本的所有特征C1,C2,…,Cn中。对于某个特原创 2020-07-27 22:45:13 · 1235 阅读 · 1 评论 -
5 机器学习 朴素贝叶斯算法 高斯模型 多项式模型 伯努利模型 拉普拉普平滑系数 TfidfVectorizer
机器学习1 朴素贝叶斯算法1.1 介绍朴素贝叶斯法是一种直接衡量标签和特征之间的概率关系的监督学习算法,是一种专注于分类的算法。“朴素”二字表示这个算法基于一个朴素的假设,即所有的变量都相互独立。朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设建立输入/输出的联合概率分布模型,然后基于此模型,对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。1.1.1 贝叶斯定理贝叶斯定理是关于随机事件A和B的条件概率原创 2020-07-26 21:47:02 · 764 阅读 · 0 评论 -
4 机器学习 欠拟合和过拟合 多项式回归 正则化 岭回归 模型的保存与加载
机器学习1 案例 预测房屋价格1.1 数据介绍台湾新北市新店区的房地产估值的市场历史数据集。字段介绍X1 - 交易日期,例如2013.250表示2013年3月,2013.500表示2013年6月X2 - 房屋年龄 (单位:年)X3 - 到最近的捷运站的距离 (单位:米)X4 - 步行生活圈中便利店的数量 (整数)X5 - 地理坐标纬度 (单位:度)X6 - 地理坐标经度 (单位:度)标签Y表示单位面积房价 (10000新台币/ Ping,其中Ping是本地单位,1 Ping = 3.原创 2020-08-02 17:03:54 · 1000 阅读 · 2 评论 -
3 机器学习 线性回归问题 损失函数 评价指标
机器学习1 线性回归问题1.1 回归问题回归问题,用于研究一组随机变量(自变量)与另一组变量(因变量)之间的定量关系。回归问题的目标是找到一个拟合函数,能够将一组随机变量映射到另一组变量上。与分类问题相比,回归问题的目标值是连续的。1.2 线性回归问题回归问题中,如果因变量和自变量呈线性关系,则这个回归问题称为线性回归(Linear Regression)问题。线性回归模型中数据的每个特征都有各自的权重,若所有特征的权重都能确定,线性回归模型就构建完成了。线性回归,就是寻找数据中特征与目标之原创 2020-08-02 12:27:33 · 855 阅读 · 0 评论 -
2 机器学习 K近邻算法(KNN) 学习曲线 交叉验证 手写数字识别
机器学习1 K-近邻算法介绍1.1 分类问题分类问题是根据已知样本的某些特征,判断一个未知样本属于哪种已知的样本类别。与回归问题相比,分类问题的输出结果是离散值,用于指定输入的样本数据属于哪个类别。1.2 K近邻算法1.2.1 简介K近邻(k-Nearest Neighbor,KNN)算法,是处理分类问题的基本算法之一。KNN算法可以理解为:如果在未知类别样本附近的k个最近的样本中大多数都属于某个类别,则这个未知样本也可以视为属于这个类别,即物以类聚,人以群分。1.2.2 工作原理给定一个原创 2020-07-22 00:02:57 · 2892 阅读 · 0 评论 -
1 机器学习 基础知识 特征工程 数据集
机器学习1 机器学习概述1.1 介绍1.1.1 什么是机器学习机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。1.1.2 人工智能和机器学习的关系机器学习是实现人工智能的一种技术手段。1.1.3 重点介绍1.1.3.1 模型模型可以理解为特殊的对象,在对象内部集成或封装了某种形式的方程,不过这些方程还没有求出解。模型的作用是实现对位置数据的预测和分类。1.1.3.2 样本数据样本数据是整体数据的一部分,在一定程度上可以反映出整体数据的特征。样本数据包括特征原创 2020-07-20 23:59:03 · 2515 阅读 · 0 评论