
机器学习
彭世瑜
记录我的工作学习笔记
展开
-
《从机器学习谈起》读书摘要
本文是对《从机器学习谈起》一文的读书摘要,这片文章很详细的介绍了机器学习,很适合入门新手读(我就是)1. 什么是机器学习机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法2. 机器学习的定义从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法...原创 2018-06-26 18:11:19 · 1491 阅读 · 0 评论 -
机器学习:模型选择与调优交叉验证和网格搜索
1、交叉验证cross validation为了让被评估的模型更加准确可信将训练数据分为训练集和验证集,分几等份就是几折验证2、网格搜索grid search超参数:很多参数需要手动指定每组超参数都采用交叉验证来进行评估代码示例from sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selectio...原创 2019-01-20 15:22:35 · 1540 阅读 · 0 评论 -
机器学习:信息熵决策树预测泰坦尼克数据
决策树思想:程序设计中分支结构if-then结构信息熵信息的单位:比特H=−(P1logP1+P2logP2+...+PnlogPn)H = -(P1logP1 + P2logP2 + ... + PnlogPn)H=−(P1logP1+P2logP2+...+PnlogPn)信息和消除不确定性相联系信息熵越大,不确定性越大,获取信息付出的代价越大信息熵公式H(X)=−∑x∈XP(...原创 2019-01-20 19:30:49 · 1465 阅读 · 0 评论 -
机器学习:随机森林预测泰坦尼克数据
随机森林1、集成学习方法集成学习通过建立几个模型组合来解决单一预测问题工作原理:生成多个分类器/模型,各自独立地学习和做出预测这些预测最后结合成单预测,因此优于任何一个单分类做出的预测2、随机森林包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定3、随机森林算法单个树建立(1)随机在N个样本中选择一个样本,重复N次,样本有可能重复(2)随机在M个特征中选出m...原创 2019-01-20 23:39:06 · 2410 阅读 · 0 评论 -
机器学习:欠拟合过拟合岭回归预测波士顿房价
欠拟合过拟合欠拟合: -训练集表现不好,而且训练集以外的数据也表现不好 -原因: -数据特征太少 -交叉验证:训练集结果表现不行 -解决:增加数据特征过拟合: -训练集表现很好,但在训练集以外的数据集表现不好 -原因: -数据特征过多 -测试集表现不行 -解决: -...原创 2019-01-25 22:39:43 · 2735 阅读 · 0 评论 -
机器学习:逻辑回归预测癌症数据
逻辑回归公式hθ(x)=g(θTx)=11+e−θTxh_\theta(x) = g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=g(θTx)=1+e−θTx1g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+e−z1sigmoid函数g(z)过点:(0, 0.5)映射区间:(负无穷, 正无穷) -&gt...原创 2019-01-25 23:40:40 · 4069 阅读 · 0 评论 -
机器学习:K-近邻算法对鸢尾花数据进行分类预测
代码示例# -*- coding: utf-8 -*-from sklearn.neighbors import KNeighborsClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_irisimport matplotlib.pyplot as...原创 2019-01-16 00:06:06 · 4502 阅读 · 1 评论 -
机器学习: k-means聚类对数据进行预分类
k-means聚类非监督学习把数据划分为k个类别-知道类别个数-不知道类别个数 超参数k = 3步骤:1、随机在数据中抽取3个样本,当做3个类别的中心点(k1, k2, k3)2、计算其余的点分别到这三个中心点的距离,每一个样本有3个距离(a, b, c)从中选出举例最近的一个点作为自己的标记,行成3个族群3、分别计算这3个族群的平均值,把3个平均值与之前的3个旧中心点进行比...原创 2019-01-26 22:41:25 · 3806 阅读 · 1 评论 -
机器学习:基本算法分类体系结构和文章汇总
机器学习Machine Learning特征工程TensorFlow神经网络图像识别自然语言处理机器学习定义从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测算法是核心,数据和计算是基础掌握算法思想,使用库或框架解决问题数据类型离散型数据 计数数据,数据都是整数,不能再细分连续型数据 某个范围内取任意一数,非整数机器学习算法分类监督学习 特征值 + 目标值...原创 2019-01-26 22:45:35 · 1894 阅读 · 0 评论 -
机器学习:分类模型的评估精确率Presicion和召回率Recall
estimator.score()准确率:预测结果正确的百分比混淆矩阵预测结果Predicted Condition正确标记 True Condition预测结果正例假例真实 正例真正例TP伪反例FN结果 假例伪正例FP真反例TNT TrueF FalseP PositiveN Negative精确率 Presicion预测结果为正...原创 2019-01-20 15:16:52 · 2295 阅读 · 0 评论 -
机器学习:Sklearn算法选择路径图
Sklearn算法选择路径图英文版中文版原创 2019-01-24 23:36:25 · 3476 阅读 · 0 评论 -
机器学习:sklearn数据集简介
算法分类监督学习 特征值 + 目标值 -分类 目标值是离散数据 -回归 目标值是连续数据无监督学习 只有特征值 -聚类数据集数据-训练集 80% 70% 75%-测试集 20% 30% 25%数据拆分:sklearn.model_selection.train_test_splitsklearn数据集sklearn.datasets -小规模数据...原创 2019-01-13 22:52:12 · 2163 阅读 · 0 评论 -
机器学习:指数函数和对数函数简单区别
区别 指数函数 对数函数 英文 exponential logarithm 函数 y=a^x (a>0,且a≠1) y=logax(a>0,且a≠1) 定义域 实数集R (0,+∞) 值域 (0,+∞) 实数集R 定点 (0,1) (1,0)特殊对数 1、 常用对数:lg(b...原创 2018-07-25 12:51:11 · 6050 阅读 · 0 评论 -
机器学习:SVM(Support Vector Machine)支持向量机简介
SVM(Support Vector Machine):支持向量机有监督学习模型应用:模式识别、分类以及回归分析SVM的主要思想:它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。它基于结构风险最小化理论之上在特征空间...原创 2018-07-25 13:01:59 · 1821 阅读 · 0 评论 -
数学:简单理解指数、对数、乘方、开方
定义指数: y=axy=axy = a^x对数 y=logaxy=logaxy = \log_a x举例假设 a=2a=2 a=2 乘法: 1×2×2×2=81×2×2×2=81 \times 2 \times 2 \times 2 = 8除法: 8÷2÷2÷2=18÷2÷2÷2=18 \div 2 \div 2 \div 2 = 1除法...原创 2018-08-24 13:19:10 · 9953 阅读 · 2 评论 -
机器学习:特征工程字典特征和文本特征抽取
1、数据集mysql 性能瓶颈,读取速度pandas 读取工具numpy释放GILcpython 协程sklearn2、数据集结构特征值 + 目标值3、机器学习重复值 不需要进行去重缺失值 特殊处理4、特征工程定义将原始数据转换为更好代表预测模型的潜在问题的特征的过程,从而提高对未知数据的预测准确性5、词汇classification 分类regression 回归...原创 2019-01-11 23:53:44 · 1953 阅读 · 1 评论 -
机器学习:数据特征预处理归一化和标准化
1、归一化将原始数据映射到一个区间[0,1]特征同等重要:归一化处理目的:使得某一个特征对最终结果不对造成更大的影响缺点:对于异常点处理不好,容易影响最大值最小值,鲁棒性较差(稳定性),只适合精确小数据场景代码示例# -*- coding: utf-8 -*-from sklearn.preprocessing import MinMaxScaler# 归一化处理,将数据映射到...原创 2019-01-12 21:52:36 · 1953 阅读 · 0 评论 -
机器学习:数据特征预处理缺失值处理
缺失值处理删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列插补:填补列的平均值,中位数numpy数组中的缺失值 nan/NaN 属于float类型代码示例from sklearn.preprocessing import Imputerimport numpy as np# 缺失值处理data = [ [1, 1, 3], [np.nan, 4, 6],...原创 2019-01-13 18:47:46 · 2347 阅读 · 0 评论 -
机器学习:线性回归梯度下降预测波士顿房价
线性回归分类: 目标值离散回归: 目标值连续线性回归:寻找一种能预测的趋势线性关系: -二维:直线关系 -三维:平面线性关系定义y=kx+by = kx + by=kx+b参数b,偏置项,为了对于单个特征的情况更加通用参数k,权重f(x)=w1x1+w2x2+...+wdxd+bf(x) = w_1x_1 + w_2x_2 +...+ w_dx_d + bf(...原创 2019-01-23 23:27:00 · 3351 阅读 · 0 评论 -
机器学习:数据降维特征选择和主成分分析PCA
数组维度数据维度:特征数量1、特征选择主要方法:Filter 过滤式 (方差variance)Embedded 嵌入式(正则化,决策时)Wrapper 包裹式神经网络代码示例from sklearn.feature_selection import VarianceThreshold# 特征选择-删除低方差的特征data = [ [0, 2, 0, 3], ...原创 2019-01-13 21:21:26 · 2748 阅读 · 0 评论 -
机器学习:朴素贝叶斯算法对新闻分类
概率基础概率定义:一件事情发生的可能性1、联合概率包含多个条件,且所有条件同时成立的概率记作:P(A,B)=P(A)P(B)P(A, B) = P(A)P(B)P(A,B)=P(A)P(B)2、条件概率事件A在另一个事件B已经发生的条件下发生的概率记作:P(A∣B)P(A|B)P(A∣B)特性:P(A1,A2∣B)=P(A1∣B)P(A2∣B)P(A1, A2|B) = P(A1|...原创 2019-01-17 00:05:53 · 2501 阅读 · 0 评论