
机器学习
魔术师_
这个作者很懒,什么都没留下…
展开
-
pandas行转列,列转行操作
需求一:将下面表格变成使用的python 代码df = pd.DataFrame({'1': {0: 'a', 1: 'a', 2: 'b',3:'b'}, '2': {0: 'A', 1: 'B', 2: 'A',3:'B'}, '3': {0: 2, 1: 4, 2: 6,3:8}})df方法一:pi...原创 2020-04-06 20:06:16 · 17975 阅读 · 2 评论 -
将DataFrame中一列list扩展成多列
Pandas:怎样将DataFrame中一列list扩展成多列?如题,如果在dataframe中有一列是list,要怎么才能把一列list拆分成很多列呢先制造点数据import numpy as npimport pandas as pd #创建数据df=pd.DataFrame({'col':[[2,3,4], [6,9,0], [7,2,5], [3,5,6]]}, index=l...原创 2020-03-07 15:28:53 · 10810 阅读 · 2 评论 -
独热编码的应用实例
独热编码的应用实例独热编码处理OneHotEncoder只要传给OneHotEncoder 就会进行处理,自动认为是分类变量只对需要的列进行处理如果只使用LabelEncoder进行处理Labelencoder 与 OneHotEndoer 一起使用利用pandas 的get_dummies 进行处理独热编码处理from sklearn.preprocessing import Standar...原创 2018-12-22 09:40:46 · 4549 阅读 · 0 评论 -
Python3.0 + 机器学习实战-第二章knn例子
使用k-近邻算法快速判定她是不是你喜欢的类型? 问题描述 比如你的朋友经常上约会网站寻找自己的约会对象,你的朋友选定约会对象的时候主要看重三点“每年飞行的旅程数”、“玩游戏所耗时间百分比”、“每个月看书的数目”,你阅人无数的朋友已经约会过很多个对象了,并且把这些对象分为三类“她是我喜欢的类型”、“一般喜欢”,“她不是我喜欢的类型”,经过无数次的约会之后,你的朋友心已经很累了,他想能否输入某人的...原创 2018-05-26 10:27:37 · 653 阅读 · 0 评论 -
Apriori关联分析
啤酒与尿布的故事已经成为了关联规则挖掘的经典案例,还有人专门出了一本书《啤酒与尿布》,虽然说这个故事是哈弗商学院杜撰出来的,但确实能很好的解释关联规则挖掘的原理。 很多的时候,我们都需要从大量数据中提取出有用的信息,从大规模数据中寻找物品间的隐含关系叫做关联分析(association analysis)或者关联规则学习(association rule learning)。比如在平时的购物中,...原创 2018-05-15 16:40:36 · 1147 阅读 · 0 评论 -
中心极限定理-纯理解无公式
什么是中心极限定理(Central Limit Theorem)中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。也就是说:大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限 意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的...原创 2018-05-18 14:05:02 · 13392 阅读 · 0 评论 -
svm 函数间隔与几何间隔的认识
在超平面w⋅x+b=0w⋅x+b=0w\cdot x+b=0确定的情况下,|w⋅x+b||w⋅x+b||w\cdot x+b|可以相对地表示点x距离超平面的远 近。对于两类分类问题,如果w⋅x+b>0w⋅x+b>0w\cdot x+b>0,则xxx的类别被判定为1;否则判定为-1。所以如果y(w⋅x+b)>0y(w⋅x+b)>0y(w\cdot x+b)>0,则认为x...原创 2018-05-10 10:29:02 · 12582 阅读 · 9 评论 -
Logistic Regression(逻辑回归)原理及公式推导
逻辑回归是广义线性模型广义线性模型:是指让模型的预测值去逼近y的衍生物,譬如说,假设我们认为示例所对应的输出标记是在指数尺度上的变化,那就可以将输出标记的对数作为线性模型逼近目标,即 lny=w2x+blny=w2x+blny=w^{2}x+b更一般的考虑单调可微函数g()令y=g−1(wTx+b)y=g−1(wTx+b)y=g^{-1}(w^{T}x+b) ,这样得到的模型称为广义线性模...原创 2018-05-09 20:30:05 · 11043 阅读 · 1 评论 -
逻辑回归与SVM的对比
差异与优劣对比:1、逻辑回归与SVM的损失函数不同,逻辑回归采用的是平方损失函数,SVM采用的是合页损失函数。但是两种损失函数的目的是相同的,都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。2、SVM的合页损失函数有一块“平坦”的零区域,使得支持向量的解具有稀疏性,而逻辑回归的损失函数是光滑的单调函数,没有支持向量的概念,逻辑回归更依赖于更多的数据,受数据分布的影响。3、逻...原创 2018-04-20 11:20:19 · 5729 阅读 · 0 评论 -
关于ROC曲线画出来只有一个点
之前在做kaggle比赛时,有个比赛使用AUC来评比的,当时试着画了ROC曲线,结果出来的下图这样的图形。跟平时的ROC曲线差好远,就只有一个点。而别人家的都是很多转折的,为啥我的不一样。我的图如下:正常的图(sklearn上面截取的):思考过后,发现原来:ROC曲线,一般适用于你的分类器输出一个“概率值”,即这个样本属于某个类的概率是多少。 如此的话,你就需要设定一个阈值, 大于这个阈值属于正类...原创 2018-04-22 20:46:18 · 17326 阅读 · 11 评论