- 博客(23)
- 收藏
- 关注
原创 模型评估
在sklearn.metrics中一、分类模型评估1.二分类:混淆矩阵TP(True Positive):实际是正类,识别为正类FN(False Negative):实际是正类,识别为负类(漏)FP(False Positive):实际是负类,识别为正类(错)TN(True Negative):实际是负类,识别为负类正确率Accuracy Rate:(TP+TN)/...
2019-04-14 21:43:11
295
原创 半监督—标签传播算法
半监督学习:样本集部分有标注,部分无标注(常远大于有标注样本)标签传播算法(LabelPropagation):物以类聚的思想,把没有标注的样本和有标注的样本进行比较,相似度高的标为同标注,会优先标注离有标注近的无标注样本,然后再进行传播。要求未标注样本的标注值是-1。以Iris数据集(山鸢花)为例import numpy as npfrom sklearn import data...
2019-04-14 11:54:14
1594
原创 聚类——K-means、DBSCAN、层次聚类
k-means:首先确定聚类的个数,再根据均值不断调整直至收敛DBSCAN:基于密度的DBSCAN切割算法,密度相连对象的最大集合层次聚类:图分裂:从顶至下import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import make_circles,make_blobs,make_moon...
2019-04-13 19:43:53
692
原创 回归
回归:线性回归、岭回归、Lasso回归、Logistic回归(常用作分类器)回归树与提升树Gradient Boosting Decision Tree(GBDT)import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklea...
2019-04-12 17:57:33
205
原创 分类——KNN、朴素贝叶斯、决策树、SVM、集成
import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...
2019-04-12 11:14:08
1903
原创 分类——KNN(K-Nearest Neighbors)
import pandas as pdimport numpy as npfrom sklearn.preprocessing import MinMaxScaler,StandardScalerfrom sklearn.preprocessing import LabelEncoder,OneHotEncoderfrom sklearn.preprocessing import Nor...
2019-03-29 18:19:27
238
原创 机器学习与建模、划分数据集
学习:通过接收到的数据,归纳提取相同和不同。机器学习:让计算机以数据为基础,进行归纳与总结。模型:数据解释现象的系统。训练集:用来训练与拟合模型验证集:当通过训练集训练出多个模型后,使用验证集数据纠偏或比较预测测试集:模型泛化能力的考量泛化:对未知数据的预测能力一般情况下:训练集:测试集:验证集=6:2:2,或者,训练集:测试集=8:2K-fold交叉验证:将数据集...
2019-03-28 18:49:26
898
原创 数据特征预处理
一、特征工程 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程包括:特征使用(数据选择,可用性)、特征获取(特征来源,特征存储)、特征处理(数据清洗,特征预处理)、特征监控(现有特征、新特征)二、数据清洗样本采集(抽样):样本要具有代表性,样本比例要平衡以及不平衡时应如何处理,考虑全量数据异常值(空值)处理:1.识别异常值...
2019-03-28 17:23:48
476
原创 多因子探索分析
1.数据的正态检验,卡方检验,独立样本的t检验,方差检验import numpy as npimport scipy.stats as ss#生成一个标准正态分布,20个数norm_dist=ss.norm.rvs(size=20)norm_dist#检验是否是正态分布,p值大于0.05不拒绝原假设,服从正态分布ss.normaltest(norm_dist)#卡方检验,15 ...
2019-03-25 19:10:33
532
原创 利用HR数据进行数据描述统计和可视化
《数据分析与挖掘建模实战》利用HR.csv数据进行实际操作一、描述统计import pandas as pd #引入pandas模块df=pd.read_csv("HR.csv") #导入HR.csv数据df.mean() #求均值df["satisfaction_level"].mean() #求其中一个变量的均值df.median() #求中位数df.qu...
2019-03-18 18:53:58
1978
3
原创 实战:原生爬虫
1.确定爬虫目的:去熊猫tv网站上爬一个游戏分类下面各个主播的人气排行2.找到数据对应的网页,充分了解所爬网站的结构,确定爬取页面和内容,找到数据所在的标签位置(在谷歌浏览器按F12可出现htmls)3.怎么爬模拟HTTP请求,向服务器发送这个请求,获取到服务器返回给我们的HTML 用正则表达式提取我们要的数据(名字,人气)1.找定位标签:尽量具有唯一性,尽量最接近要提取的数据...
2019-02-12 20:44:32
279
原创 函数式编程与装饰器
匿名函数、高阶函数、装饰器1.匿名函数: 要借助关键字lambda1.1lambda表达式def add(x,y): return x+y#若用lambda表达式表示 lambda parameter_list:expressionf=lambda x,y:x+yprint(add(1,2))print(f(1,2))1.2三元表达式#三元表达式:条件...
2019-01-31 20:00:13
194
原创 闭包
1.闭包=函数+环境变量def curve_pre(): a=25 #环境变量 def curve(x): #函数 return a*x*x return curvea=10f=curve_pre()print(f.__closure__)print(f.__closure__[0].cell_...
2019-01-22 16:05:53
144
原创 枚举
1.1枚举也是一个类from enum import Enum #引入枚举class VIP(Enum): #枚举也是一个类 YELLOW=1 #重在标签不在数值 GREEN=2 BLACK=3 RED=4枚举和普通类相比具有的优势:(1)枚举下的类型不能被随意更改(2)具有可以防止相同标签的功能1.2枚举类型、枚举名称与枚举值...
2019-01-22 13:17:40
125
原创 JSON
JSON(JavaScript Object Notation) 对象标记本质:是一种轻量级的数据交换格式字符串是JSON的表现形式,符合JSON格式的字符串叫做JSON字符串应用场景:跨语言数据交换#反序列化:把JSON类型转换成对应的python类型import json#JSON object JSON对象json_str='{"name":"qiyue","age"...
2019-01-18 16:10:59
194
原创 正则表达式
一.正则表达式:是一个特殊的字符序列,可以帮我们检测一个字符串是否与我们所设定的这样的字符序列,相匹配。如果匹配,我们可以实现快速检索文本,或实现一些替换文本的操作。如:检查一串数字是否是电话号码,把一个文本里指定的单词替换为另外一个单词 。1.检测一个字符串1是否包含在另一个字符串2里(可以用python内置的 in或字符串2.index(字符串1))在这里使用最基础的正则表达式。im...
2019-01-18 14:47:44
186
原创 面向对象
类、对象1.类:类是现实世界或思维世界中实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。是一个抽象概念并不具体。一类事物的总称命名时第一个字母最好大写、最好不要用下划线连接 class 类的名字(): 在类的内部:可以定义若干个变量、可以定义函数如何使用类:实例化总结:类最基本作用:封装(封装里面的变量和代码) 类下边的函数...
2018-12-16 22:58:55
186
原创 python函数
保留小数点后的若干位:round(变量,要保留的位数) 如:a=1.5678 b=round(a,3) print(b)得出1.568 是四舍五入的查看python内置函数的作用:在IDLE里打出help(要查询的函数) 如help(round)函数的特性:1.功能性 2.隐藏细节 3.避免编写重复的代码定义一个函数:def funcname(parameter_lis...
2018-11-26 21:02:26
142
原创 Python项目的组织结构
Python项目的组织结构:包(物理表现上是文件夹,一个文件夹成为包:文件夹下必须包含_init_.py文件) 模块(一个一个的文件,存在于包下边,_init_.py也是一个模块但名字为包的名字) 类(函数、变量是类本身的特性) ...
2018-11-23 18:03:49
1647
原创 循环:while、for
1.while(在设定的目标达成之前,一直循环,至到达成。在递归场景也可以用)counter = 1while counter <= 10: counter += 1 print(counter)else: print('end')2.for(主要是用来遍历/循环 序列或者集合、字典)a = ['apple','orange','banan...
2018-11-19 21:56:36
136
原创 流程控制语句:if else
注释:单行注释在前边加#号,多行注释''' ''''1.条件控制 if else:(1)解决选择性问题mood = Trueif mood: print('go to left')else: print('go to right')根据 mood的值输出结果。关键在于 if 后边的变量。''' 一段小程序'''account = '...
2018-11-18 16:59:21
203
原创 python基本概念:变量、运算符与表达式
1.变量:名字(区分大小写)定义一个变量 如:A=[1,2,3] 等号=表示赋值规定:(1)变量名只能由字母、数字和下划线组成,但变量名的首字符不能是数字 (2)python系统中的关键字(保留关键字)不能用在变量名中 如:and if imput 对于引用类型(如list set dict)来说值可以改变(可以直接改变原...
2018-11-14 17:54:50
682
原创 Python的基本数据类型
**python的基本类型*## Python的基本数据类型 1. **Number:数字** (1)整数 **int** 和浮点数**float type() type(1)显示数1的类型 type(2/2)得到浮点型,class 'float' 要想整数型除法仍是整...
2018-11-14 10:31:16
136
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人