自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 模型评估

在sklearn.metrics中 一、分类模型评估 1.二分类: 混淆矩阵 TP(True Positive):实际是正类,识别为正类 FN(False Negative):实际是正类,识别为负类(漏) FP(False Positive):实际是负类,识别为正类(错) TN(True Negative):实际是负类,识别为负类 正确率Accuracy Rate:(TP+TN)/...

2019-04-14 21:43:11 305

原创 半监督—标签传播算法

半监督学习:样本集部分有标注,部分无标注(常远大于有标注样本) 标签传播算法(LabelPropagation):物以类聚的思想,把没有标注的样本和有标注的样本进行比较,相似度高的标为同标注,会优先标注离有标注近的无标注样本,然后再进行传播。要求未标注样本的标注值是-1。 以Iris数据集(山鸢花)为例 import numpy as np from sklearn import data...

2019-04-14 11:54:14 1611

原创 聚类——K-means、DBSCAN、层次聚类

k-means:首先确定聚类的个数,再根据均值不断调整直至收敛 DBSCAN:基于密度的DBSCAN切割算法,密度相连对象的最大集合 层次聚类: 图分裂:从顶至下 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_circles,make_blobs,make_moon...

2019-04-13 19:43:53 711

原创 回归

回归:线性回归、岭回归、Lasso回归、Logistic回归(常用作分类器) 回归树与提升树 Gradient Boosting Decision Tree(GBDT) import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklea...

2019-04-12 17:57:33 220

原创 分类——KNN、朴素贝叶斯、决策树、SVM、集成

import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...

2019-04-12 11:14:08 1939

原创 分类——KNN(K-Nearest Neighbors)

import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...

2019-03-29 18:19:27 249

原创 机器学习与建模、划分数据集

学习:通过接收到的数据,归纳提取相同和不同。 机器学习:让计算机以数据为基础,进行归纳与总结。 模型:数据解释现象的系统。 训练集:用来训练与拟合模型 验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测 测试集:模型泛化能力的考量 泛化:对未知数据的预测能力 一般情况下:训练集:测试集:验证集=6:2:2,或者,训练集:测试集=8:2 K-fold交叉验证:将数据集...

2019-03-28 18:49:26 907

原创 数据特征预处理

一、特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程包括:特征使用(数据选择,可用性)、特征获取(特征来源,特征存储)、特征处理(数据清洗,特征预处理)、特征监控(现有特征、新特征) 二、数据清洗 样本采集(抽样):样本要具有代表性,样本比例要平衡以及不平衡时应如何处理,考虑全量数据 异常值(空值)处理:1.识别异常值...

2019-03-28 17:23:48 488

原创 多因子探索分析

1.数据的正态检验,卡方检验,独立样本的t检验,方差检验 import numpy as np import scipy.stats as ss #生成一个标准正态分布,20个数 norm_dist=ss.norm.rvs(size=20) norm_dist #检验是否是正态分布,p值大于0.05不拒绝原假设,服从正态分布 ss.normaltest(norm_dist) #卡方检验,15 ...

2019-03-25 19:10:33 564

原创 利用HR数据进行数据描述统计和可视化

《数据分析与挖掘建模实战》 利用HR.csv数据进行实际操作 一、描述统计 import pandas as pd #引入pandas模块 df=pd.read_csv("HR.csv") #导入HR.csv数据 df.mean() #求均值 df["satisfaction_level"].mean() #求其中一个变量的均值 df.median() #求中位数 df.qu...

2019-03-18 18:53:58 2002 3

原创 实战:原生爬虫

1.确定爬虫目的:去熊猫tv网站上爬一个游戏分类下面各个主播的人气排行 2.找到数据对应的网页,充分了解所爬网站的结构,确定爬取页面和内容,找到数据所在的标签位置(在谷歌浏览器按F12可出现htmls) 3.怎么爬 模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给我们的HTML  用正则表达式提取我们要的数据(名字,人气) 1.找定位标签:尽量具有唯一性,尽量最接近要提取的数据...

2019-02-12 20:44:32 289

原创 函数式编程与装饰器

  匿名函数、高阶函数、装饰器 1.匿名函数: 要借助关键字lambda 1.1lambda表达式 def add(x,y): return x+y #若用lambda表达式表示 lambda parameter_list:expression f=lambda x,y:x+y print(add(1,2)) print(f(1,2)) 1.2三元表达式 #三元表达式:条件...

2019-01-31 20:00:13 204

原创 闭包

1.闭包=函数+环境变量 def curve_pre(): a=25 #环境变量 def curve(x): #函数 return a*x*x return curve a=10 f=curve_pre() print(f.__closure__) print(f.__closure__[0].cell_...

2019-01-22 16:05:53 149

原创 枚举

1.1枚举也是一个类 from enum import Enum #引入枚举 class VIP(Enum): #枚举也是一个类 YELLOW=1 #重在标签不在数值 GREEN=2 BLACK=3 RED=4 枚举和普通类相比具有的优势:(1)枚举下的类型不能被随意更改(2)具有可以防止相同标签的功能 1.2枚举类型、枚举名称与枚举值 ...

2019-01-22 13:17:40 137

原创 JSON

JSON(JavaScript Object Notation) 对象标记 本质:是一种轻量级的数据交换格式 字符串是JSON的表现形式,符合JSON格式的字符串叫做JSON字符串 应用场景:跨语言数据交换 #反序列化:把JSON类型转换成对应的python类型 import json #JSON object JSON对象 json_str='{"name":"qiyue","age"...

2019-01-18 16:10:59 198

原创 正则表达式

一.正则表达式:是一个特殊的字符序列,可以帮我们检测一个字符串是否与我们所设定的这样的字符序列,相匹配。如果匹配,我们可以实现快速检索文本,或实现一些替换文本的操作。如:检查一串数字是否是电话号码,把一个文本里指定的单词替换为另外一个单词 。 1.检测一个字符串1是否包含在另一个字符串2里(可以用python内置的 in或字符串2.index(字符串1))在这里使用最基础的正则表达式。 im...

2019-01-18 14:47:44 192

原创 面向对象

类、对象 1.类:类是现实世界或思维世界中实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。是一个抽象概念并不具体。一类事物的总称 命名时第一个字母最好大写、最好不要用下划线连接       class 类的名字():    在类的内部:可以定义若干个变量、可以定义函数 如何使用类:实例化 总结:类最基本作用:封装(封装里面的变量和代码)            类下边的函数...

2018-12-16 22:58:55 193

原创 python函数

保留小数点后的若干位:round(变量,要保留的位数) 如:a=1.5678   b=round(a,3)  print(b)得出1.568  是四舍五入的 查看python内置函数的作用:在IDLE里打出help(要查询的函数)  如help(round) 函数的特性:1.功能性 2.隐藏细节 3.避免编写重复的代码 定义一个函数: def funcname(parameter_lis...

2018-11-26 21:02:26 153

原创 Python项目的组织结构

Python项目的组织结构:包(物理表现上是文件夹,一个文件夹成为包:文件夹下必须包含_init_.py文件)                                        模块(一个一个的文件,存在于包下边,_init_.py也是一个模块但名字为包的名字)                                        类(函数、变量是类本身的特性)      ...

2018-11-23 18:03:49 1677

原创 循环:while、for

  1.while(在设定的目标达成之前,一直循环,至到达成。在递归场景也可以用) counter = 1 while counter <= 10: counter += 1 print(counter) else: print('end') 2.for(主要是用来遍历/循环 序列或者集合、字典) a = ['apple','orange','banan...

2018-11-19 21:56:36 143

原创 流程控制语句:if else

注释:单行注释在前边加#号,多行注释'''     '''' 1.条件控制 if else: (1)解决选择性问题 mood = True if mood: print('go to left') else: print('go to right') 根据 mood的值输出结果。 关键在于 if 后边的变量。 ''' 一段小程序 ''' account = '...

2018-11-18 16:59:21 211

原创 python基本概念:变量、运算符与表达式

1.变量:名字(区分大小写) 定义一个变量   如:A=[1,2,3]   等号=表示赋值 规定:(1)变量名只能由字母、数字和下划线组成,但变量名的首字符不能是数字            (2)python系统中的关键字(保留关键字)不能用在变量名中  如:and if imput               对于引用类型(如list set dict)来说值可以改变(可以直接改变原...

2018-11-14 17:54:50 716

原创 Python的基本数据类型

**python的基本类型* ## Python的基本数据类型  1.   **Number:数字**      (1)整数 **int**    和浮点数**float          type()              type(1)显示数1的类型                type(2/2)得到浮点型,class 'float'             要想整数型除法仍是整...

2018-11-14 10:31:16 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除