
机器学习算法
文章平均质量分 76
机器学习算法
十年前的海苔
这个作者很懒,什么都没留下…
展开
-
机器学习01:入门案例-文本特征抽取
一、字典特征抽取字典数据抽取就是把字典中的一些类别数据分别转化成特征值from sklearn.feature_extraction import DictVectorizerdef dictvec(): """ 字典数据提取 """ # 实例化 dict = DictVectorizer(sparse=False) # sparse=False后,dict在调用fit_transform后则返回的是ndarray # 调用fit_tra原创 2021-11-10 19:00:17 · 1342 阅读 · 0 评论 -
机器学习02:特征预处理
什么是特征预处理通过特定的统计方法(数学方法)将数据转换成算法要求的数据数值型数据:标准缩放:1、归一化2、标准化3、缺失值类别型数据:one-hot编码时间类型:时间的切分归一化特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间公式:注:作用于每一列,max为一列的最大值,min为一列的最小值,那么x"为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0那么为什么需要将数据归一化呢?来看一个例子这是一组约会对象的数据这个样本是男士的数据,包含三个特征原创 2021-11-11 14:59:51 · 404 阅读 · 0 评论 -
机器学习03:特征选择
一、特征选择是什么特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也不改变值,但是选择后的特征维数肯定比选择前小,毕竟我们只选择了其中的一部分特征。主要方法(三大武器):Filter(过滤式):VarianceThresholdEmbedded(嵌入式):正则化、决策树Wrapper(包裹式)这里我们我们主要过滤式,其余的后续再介绍二、特征降维的实现1.Filter(过滤式):VarianceThresholdVarianceThresho原创 2021-11-12 15:16:14 · 1432 阅读 · 0 评论 -
机器学习04:机器学习算法分类及开发流程简介
一、算法分类在介绍机器学习算法之前,先来明确两个概念:离散型数据和连续性数据离散型数据:上图是一组离散型数据,它是由记录不同类别个体的数目所得到的数据,又称计数数据,例如人口数、班级数量、特定范围内的汽车数量……所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度.连续性数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。明确了上述概念,我们来看机器算法的分类:大致可以分为两种:监督学习和无监督学习原创 2021-11-12 16:14:55 · 995 阅读 · 0 评论 -
机器学习05:转换器与估计器
一、转换器回想一下之前做的特征工程的步骤1、实例化(实例化的是一个转换器类(Transformer)2、调用fit-transform(对于文档建立分类词频矩阵,不能同时调用)fit_transform()就是先fit(输入数据),再transform(转换数据)举个例子:from sklearn.preprocessing import StandardScalers = StandardScaler()data = s.fit_transform([[1, 2, 3], [4, 5,原创 2021-11-12 19:40:26 · 786 阅读 · 0 评论 -
机器学习06:朴素贝叶斯算法
朴素贝叶斯的思想如下:假设我们有四篇文章,三个类别,要判断每一篇文章属于哪一种类别,这种算法是将文章属于每一种概率的类别计算出来,并且判断它属于哪一种类别的概率最大,那么它就属于这个类别先介绍一下与概率有关的内容概率定义为一件事情发生的可能性联合概率:包含多个条件,且所有条件同时成立的概率记作:P(A,B)P(A,B) = P(A)P(B)上表中职业是程序员并且体型匀称的概率是多少?P(程序员, 匀称) = (3/7)*(4/7) = 12/49条件概率:事件A在事件B已经发生条件下的原创 2021-11-13 13:05:51 · 869 阅读 · 0 评论 -
机器学习07:决策树基本流程
什么是决策树原创 2021-11-13 20:24:43 · 3029 阅读 · 0 评论