- 博客(23)
- 收藏
- 关注
原创 模型评估
在sklearn.metrics中 一、分类模型评估 1.二分类: 混淆矩阵 TP(True Positive):实际是正类,识别为正类 FN(False Negative):实际是正类,识别为负类(漏) FP(False Positive):实际是负类,识别为正类(错) TN(True Negative):实际是负类,识别为负类 正确率Accuracy Rate:(TP+TN)/...
2019-04-14 21:43:11
305
原创 半监督—标签传播算法
半监督学习:样本集部分有标注,部分无标注(常远大于有标注样本) 标签传播算法(LabelPropagation):物以类聚的思想,把没有标注的样本和有标注的样本进行比较,相似度高的标为同标注,会优先标注离有标注近的无标注样本,然后再进行传播。要求未标注样本的标注值是-1。 以Iris数据集(山鸢花)为例 import numpy as np from sklearn import data...
2019-04-14 11:54:14
1611
原创 聚类——K-means、DBSCAN、层次聚类
k-means:首先确定聚类的个数,再根据均值不断调整直至收敛 DBSCAN:基于密度的DBSCAN切割算法,密度相连对象的最大集合 层次聚类: 图分裂:从顶至下 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_circles,make_blobs,make_moon...
2019-04-13 19:43:53
711
原创 回归
回归:线性回归、岭回归、Lasso回归、Logistic回归(常用作分类器) 回归树与提升树 Gradient Boosting Decision Tree(GBDT) import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklea...
2019-04-12 17:57:33
220
原创 分类——KNN、朴素贝叶斯、决策树、SVM、集成
import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...
2019-04-12 11:14:08
1939
原创 分类——KNN(K-Nearest Neighbors)
import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...
2019-03-29 18:19:27
249
原创 机器学习与建模、划分数据集
学习:通过接收到的数据,归纳提取相同和不同。 机器学习:让计算机以数据为基础,进行归纳与总结。 模型:数据解释现象的系统。 训练集:用来训练与拟合模型 验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测 测试集:模型泛化能力的考量 泛化:对未知数据的预测能力 一般情况下:训练集:测试集:验证集=6:2:2,或者,训练集:测试集=8:2 K-fold交叉验证:将数据集...
2019-03-28 18:49:26
907
原创 数据特征预处理
一、特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程包括:特征使用(数据选择,可用性)、特征获取(特征来源,特征存储)、特征处理(数据清洗,特征预处理)、特征监控(现有特征、新特征) 二、数据清洗 样本采集(抽样):样本要具有代表性,样本比例要平衡以及不平衡时应如何处理,考虑全量数据 异常值(空值)处理:1.识别异常值...
2019-03-28 17:23:48
488
原创 多因子探索分析
1.数据的正态检验,卡方检验,独立样本的t检验,方差检验 import numpy as np import scipy.stats as ss #生成一个标准正态分布,20个数 norm_dist=ss.norm.rvs(size=20) norm_dist #检验是否是正态分布,p值大于0.05不拒绝原假设,服从正态分布 ss.normaltest(norm_dist) #卡方检验,15 ...
2019-03-25 19:10:33
564
原创 利用HR数据进行数据描述统计和可视化
《数据分析与挖掘建模实战》 利用HR.csv数据进行实际操作 一、描述统计 import pandas as pd #引入pandas模块 df=pd.read_csv("HR.csv") #导入HR.csv数据 df.mean() #求均值 df["satisfaction_level"].mean() #求其中一个变量的均值 df.median() #求中位数 df.qu...
2019-03-18 18:53:58
2002
3
原创 实战:原生爬虫
1.确定爬虫目的:去熊猫tv网站上爬一个游戏分类下面各个主播的人气排行 2.找到数据对应的网页,充分了解所爬网站的结构,确定爬取页面和内容,找到数据所在的标签位置(在谷歌浏览器按F12可出现htmls) 3.怎么爬 模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给我们的HTML 用正则表达式提取我们要的数据(名字,人气) 1.找定位标签:尽量具有唯一性,尽量最接近要提取的数据...
2019-02-12 20:44:32
289
原创 函数式编程与装饰器
匿名函数、高阶函数、装饰器 1.匿名函数: 要借助关键字lambda 1.1lambda表达式 def add(x,y): return x+y #若用lambda表达式表示 lambda parameter_list:expression f=lambda x,y:x+y print(add(1,2)) print(f(1,2)) 1.2三元表达式 #三元表达式:条件...
2019-01-31 20:00:13
204
原创 闭包
1.闭包=函数+环境变量 def curve_pre(): a=25 #环境变量 def curve(x): #函数 return a*x*x return curve a=10 f=curve_pre() print(f.__closure__) print(f.__closure__[0].cell_...
2019-01-22 16:05:53
149
原创 枚举
1.1枚举也是一个类 from enum import Enum #引入枚举 class VIP(Enum): #枚举也是一个类 YELLOW=1 #重在标签不在数值 GREEN=2 BLACK=3 RED=4 枚举和普通类相比具有的优势:(1)枚举下的类型不能被随意更改(2)具有可以防止相同标签的功能 1.2枚举类型、枚举名称与枚举值 ...
2019-01-22 13:17:40
137
原创 JSON
JSON(JavaScript Object Notation) 对象标记 本质:是一种轻量级的数据交换格式 字符串是JSON的表现形式,符合JSON格式的字符串叫做JSON字符串 应用场景:跨语言数据交换 #反序列化:把JSON类型转换成对应的python类型 import json #JSON object JSON对象 json_str='{"name":"qiyue","age"...
2019-01-18 16:10:59
198
原创 正则表达式
一.正则表达式:是一个特殊的字符序列,可以帮我们检测一个字符串是否与我们所设定的这样的字符序列,相匹配。如果匹配,我们可以实现快速检索文本,或实现一些替换文本的操作。如:检查一串数字是否是电话号码,把一个文本里指定的单词替换为另外一个单词 。 1.检测一个字符串1是否包含在另一个字符串2里(可以用python内置的 in或字符串2.index(字符串1))在这里使用最基础的正则表达式。 im...
2019-01-18 14:47:44
192
原创 面向对象
类、对象 1.类:类是现实世界或思维世界中实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。是一个抽象概念并不具体。一类事物的总称 命名时第一个字母最好大写、最好不要用下划线连接 class 类的名字(): 在类的内部:可以定义若干个变量、可以定义函数 如何使用类:实例化 总结:类最基本作用:封装(封装里面的变量和代码) 类下边的函数...
2018-12-16 22:58:55
193
原创 python函数
保留小数点后的若干位:round(变量,要保留的位数) 如:a=1.5678 b=round(a,3) print(b)得出1.568 是四舍五入的 查看python内置函数的作用:在IDLE里打出help(要查询的函数) 如help(round) 函数的特性:1.功能性 2.隐藏细节 3.避免编写重复的代码 定义一个函数: def funcname(parameter_lis...
2018-11-26 21:02:26
153
原创 Python项目的组织结构
Python项目的组织结构:包(物理表现上是文件夹,一个文件夹成为包:文件夹下必须包含_init_.py文件) 模块(一个一个的文件,存在于包下边,_init_.py也是一个模块但名字为包的名字) 类(函数、变量是类本身的特性) ...
2018-11-23 18:03:49
1677
原创 循环:while、for
1.while(在设定的目标达成之前,一直循环,至到达成。在递归场景也可以用) counter = 1 while counter <= 10: counter += 1 print(counter) else: print('end') 2.for(主要是用来遍历/循环 序列或者集合、字典) a = ['apple','orange','banan...
2018-11-19 21:56:36
143
原创 流程控制语句:if else
注释:单行注释在前边加#号,多行注释''' '''' 1.条件控制 if else: (1)解决选择性问题 mood = True if mood: print('go to left') else: print('go to right') 根据 mood的值输出结果。 关键在于 if 后边的变量。 ''' 一段小程序 ''' account = '...
2018-11-18 16:59:21
211
原创 python基本概念:变量、运算符与表达式
1.变量:名字(区分大小写) 定义一个变量 如:A=[1,2,3] 等号=表示赋值 规定:(1)变量名只能由字母、数字和下划线组成,但变量名的首字符不能是数字 (2)python系统中的关键字(保留关键字)不能用在变量名中 如:and if imput 对于引用类型(如list set dict)来说值可以改变(可以直接改变原...
2018-11-14 17:54:50
716
原创 Python的基本数据类型
**python的基本类型* ## Python的基本数据类型 1. **Number:数字** (1)整数 **int** 和浮点数**float type() type(1)显示数1的类型 type(2/2)得到浮点型,class 'float' 要想整数型除法仍是整...
2018-11-14 10:31:16
142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人