zzzzzzzz56-优快云博客

原创模型评估

在sklearn.metrics中一、分类模型评估 1.二分类：混淆矩阵 TP（True Positive）:实际是正类，识别为正类 FN（False Negative）:实际是正类，识别为负类（漏） FP（False Positive）:实际是负类，识别为正类（错） TN（True Negative）:实际是负类，识别为负类正确率Accuracy Rate:(TP+TN)/...

2019-04-14 21:43:11 305

原创半监督—标签传播算法

半监督学习：样本集部分有标注，部分无标注（常远大于有标注样本）标签传播算法（LabelPropagation）：物以类聚的思想，把没有标注的样本和有标注的样本进行比较，相似度高的标为同标注，会优先标注离有标注近的无标注样本，然后再进行传播。要求未标注样本的标注值是-1。以Iris数据集（山鸢花）为例 import numpy as np from sklearn import data...

2019-04-14 11:54:14 1611

原创聚类——K-means、DBSCAN、层次聚类

k-means：首先确定聚类的个数，再根据均值不断调整直至收敛 DBSCAN：基于密度的DBSCAN切割算法，密度相连对象的最大集合层次聚类：图分裂：从顶至下 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_circles,make_blobs,make_moon...

2019-04-13 19:43:53 711

原创回归

回归：线性回归、岭回归、Lasso回归、Logistic回归（常用作分类器）回归树与提升树 Gradient Boosting Decision Tree（GBDT） import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklea...

2019-04-12 17:57:33 220

import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...

2019-04-12 11:14:08 1939

原创分类——KNN（K-Nearest Neighbors）

import pandas as pd import numpy as np from sklearn.preprocessing import MinMaxScaler,StandardScaler from sklearn.preprocessing import LabelEncoder,OneHotEncoder from sklearn.preprocessing import Nor...

2019-03-29 18:19:27 249

原创机器学习与建模、划分数据集

学习：通过接收到的数据，归纳提取相同和不同。机器学习：让计算机以数据为基础，进行归纳与总结。模型：数据解释现象的系统。训练集：用来训练与拟合模型验证集：当通过训练集训练出多个模型后，使用验证集数据纠偏或比较预测测试集：模型泛化能力的考量泛化：对未知数据的预测能力一般情况下：训练集：测试集：验证集=6:2:2，或者，训练集：测试集=8:2 K-fold交叉验证：将数据集...

2019-03-28 18:49:26 907

原创数据特征预处理

一、特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。特征工程包括：特征使用（数据选择，可用性）、特征获取（特征来源，特征存储）、特征处理（数据清洗，特征预处理）、特征监控（现有特征、新特征）二、数据清洗样本采集（抽样）：样本要具有代表性，样本比例要平衡以及不平衡时应如何处理，考虑全量数据异常值（空值）处理：1.识别异常值...

2019-03-28 17:23:48 488

原创多因子探索分析

1.数据的正态检验，卡方检验，独立样本的t检验，方差检验 import numpy as np import scipy.stats as ss #生成一个标准正态分布,20个数 norm_dist=ss.norm.rvs(size=20) norm_dist #检验是否是正态分布,p值大于0.05不拒绝原假设，服从正态分布 ss.normaltest(norm_dist) #卡方检验,15 ...

2019-03-25 19:10:33 564

原创利用HR数据进行数据描述统计和可视化

《数据分析与挖掘建模实战》利用HR.csv数据进行实际操作一、描述统计 import pandas as pd #引入pandas模块 df=pd.read_csv("HR.csv") #导入HR.csv数据 df.mean() #求均值 df["satisfaction_level"].mean() #求其中一个变量的均值 df.median() #求中位数 df.qu...

2019-03-18 18:53:58 2002 3

原创实战：原生爬虫

1.确定爬虫目的：去熊猫tv网站上爬一个游戏分类下面各个主播的人气排行 2.找到数据对应的网页，充分了解所爬网站的结构，确定爬取页面和内容，找到数据所在的标签位置（在谷歌浏览器按F12可出现htmls） 3.怎么爬模拟HTTP请求，向服务器发送这个请求，获取到服务器返回给我们的HTML 用正则表达式提取我们要的数据（名字，人气） 1.找定位标签：尽量具有唯一性，尽量最接近要提取的数据...

2019-02-12 20:44:32 289

原创函数式编程与装饰器

匿名函数、高阶函数、装饰器 1.匿名函数：要借助关键字lambda 1.1lambda表达式 def add(x,y): return x+y #若用lambda表达式表示 lambda parameter_list:expression f=lambda x,y:x+y print(add(1,2)) print(f(1,2)) 1.2三元表达式 #三元表达式：条件...

2019-01-31 20:00:13 204

原创闭包

1.闭包=函数+环境变量 def curve_pre(): a=25 #环境变量 def curve(x): #函数 return a*x*x return curve a=10 f=curve_pre() print(f.__closure__) print(f.__closure__[0].cell_...

2019-01-22 16:05:53 149

原创枚举

1.1枚举也是一个类 from enum import Enum #引入枚举 class VIP(Enum): #枚举也是一个类 YELLOW=1 #重在标签不在数值 GREEN=2 BLACK=3 RED=4 枚举和普通类相比具有的优势：（1）枚举下的类型不能被随意更改（2）具有可以防止相同标签的功能 1.2枚举类型、枚举名称与枚举值 ...

2019-01-22 13:17:40 137

原创 JSON

JSON(JavaScript Object Notation) 对象标记本质：是一种轻量级的数据交换格式字符串是JSON的表现形式，符合JSON格式的字符串叫做JSON字符串应用场景：跨语言数据交换 #反序列化：把JSON类型转换成对应的python类型 import json #JSON object JSON对象 json_str='{"name":"qiyue","age"...

2019-01-18 16:10:59 198

原创正则表达式

一.正则表达式：是一个特殊的字符序列，可以帮我们检测一个字符串是否与我们所设定的这样的字符序列，相匹配。如果匹配，我们可以实现快速检索文本，或实现一些替换文本的操作。如：检查一串数字是否是电话号码，把一个文本里指定的单词替换为另外一个单词。 1.检测一个字符串1是否包含在另一个字符串2里（可以用python内置的 in或字符串2.index(字符串1)）在这里使用最基础的正则表达式。 im...

2019-01-18 14:47:44 192

原创面向对象

类、对象 1.类：类是现实世界或思维世界中实体在计算机中的反映。它将数据以及这些数据上的操作封装在一起。是一个抽象概念并不具体。一类事物的总称命名时第一个字母最好大写、最好不要用下划线连接 class 类的名字(): 在类的内部：可以定义若干个变量、可以定义函数如何使用类：实例化总结：类最基本作用：封装（封装里面的变量和代码）类下边的函数...

2018-12-16 22:58:55 193

原创 python函数

保留小数点后的若干位：round(变量，要保留的位数) 如：a=1.5678 b=round(a,3) print(b)得出1.568 是四舍五入的查看python内置函数的作用：在IDLE里打出help(要查询的函数) 如help(round) 函数的特性：1.功能性 2.隐藏细节 3.避免编写重复的代码定义一个函数： def funcname(parameter_lis...

2018-11-26 21:02:26 153

原创 Python项目的组织结构

Python项目的组织结构：包（物理表现上是文件夹，一个文件夹成为包：文件夹下必须包含_init_.py文件）模块（一个一个的文件，存在于包下边，_init_.py也是一个模块但名字为包的名字）类（函数、变量是类本身的特性） ...

2018-11-23 18:03:49 1677

原创循环:while、for

1.while（在设定的目标达成之前，一直循环，至到达成。在递归场景也可以用） counter = 1 while counter <= 10: counter += 1 print(counter) else: print('end') 2.for（主要是用来遍历/循环序列或者集合、字典） a = ['apple','orange','banan...

2018-11-19 21:56:36 143

原创流程控制语句：if else

注释：单行注释在前边加#号，多行注释''' '''' 1.条件控制 if else：（1）解决选择性问题 mood = True if mood: print('go to left') else: print('go to right') 根据 mood的值输出结果。关键在于 if 后边的变量。 ''' 一段小程序 ''' account = '...

2018-11-18 16:59:21 211

原创 python基本概念：变量、运算符与表达式

1.变量：名字（区分大小写）定义一个变量如：A=[1,2,3] 等号=表示赋值规定：（1）变量名只能由字母、数字和下划线组成，但变量名的首字符不能是数字（2）python系统中的关键字（保留关键字）不能用在变量名中如：and if imput 对于引用类型（如list set dict）来说值可以改变（可以直接改变原...

2018-11-14 17:54:50 716