自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 k折交叉验证数据获取

k折交叉验证数据获取无注释def get_k_fold_data(k, i, X, y): assert k > 1 n = X.shape[0] fold_size = n // k X_train, y_train = None, None for j in range(k): idx = slice(j*fold_size, (j+1)*fold_size) X_part, y_part = X[idx, :], y

2020-12-07 21:08:33 949

原创 ch04 基本数据管理

基本数据管理一、一个示例一、一个示例manager <- c(1,2,3,4,5)date <- c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")gender <- c("M","F","F","M","F")age <- c(32,45,25,39,99)q1 <- c(5,3,3,3,2)q2 <- c(4,5,5,3,2)q3 <- c(5,2,5,4,1)q4 <- c(5,

2020-10-14 20:11:49 543

原创 Ch02 创建数据集

创建数据集一、数据集的概念二、数据结构2.1 向量2.2 矩阵2.3 数组2.4 数据框2.5 因子2.6 列表三、数据的输入四、数据集的标注五、处理数据对象的实用函数一、数据集的概念…二、数据结构2.1 向量2.2 矩阵2.3 数组2.4 数据框2.5 因子2.6 列表三、数据的输入四、数据集的标注五、处理数据对象的实用函数...

2020-10-13 19:50:13 683

原创 关于样本数量的学习曲线

关于样本数量的学习曲线def plot_learning_curve(estimator,title, X, y, ax=None, #选择子图 ylim=None, #设置纵坐标的取值范围 cv=None, #交叉验证 n_jobs=None #设定索要使用的线程 ):

2020-08-27 16:43:47 470

原创 回归的学习曲线

回归器的学习曲线做作业的时候瞎写了个画回归器学习曲线的函数,一些简单的回归的学习曲线基本上可以用这个函数完成。def regressor_draw_learn_curve(regressor, X, Y, start, end, step_para, step=1, method='mean', cv=5, color=['red', 'orange'], **other_para): #学习曲线。regressor是回归器;sta

2020-08-24 22:25:58 1299 1

原创 ch09 绘图与可视化

绘图与可视化一、matplotlib API入门1.1 图片与子图1.2 颜色、标记和线类型1.3 刻度、标签和图例1.4 注释与子图加工1.5 将图片保存到文件1.6 matplotlib设置二、使用pandas和seaborn绘图2.1 折线图2.2 柱状图2.3 直方图和密度图2.4 散点图或点图2.5 分面网格和分类数据一、matplotlib API入门import numpy as npimport pandas as pdimport matplotlib.pyplot as plt

2020-06-30 14:12:52 617

原创 ch08 数据规整:连接、联合与重塑

数据规整:连接、联合与重塑一、分层索引1.1 基本方法1.2 重排序和层级排序1.3 按层级进行汇总统计1.4 使用DataFrame的列进行索引二、联合与合并数据集2.1 数据库风格的DataFrame连接2.2 根据索引合并2.3 沿轴向连接2.4 联合重叠数据三、重塑和透视3.1 使用多层索引进行重塑3.2 将“长”透视为“宽”3.3 将“宽”透视为“长”一、分层索引1.1 基本方法层次化索引(hierarchical indexing)是pandas的⼀项重要功能,它使你能在⼀个轴上拥有多个(

2020-06-27 09:39:29 312

原创 ch07 数据清理与准备

数据清理与准备一、处理缺失值1.1 基本方法1.2 过滤缺失值1.3 补全缺失值二、数据转换2.1 删除重复值2.2 使用函数或映射进行数据转换2.3 替代值2.4 重命名轴索引2.5 离散化和分箱2.6 检测和过滤异常值2.7 置换和随机抽样2.8 计算指标/虚拟变量三、字符串操作3.1 字符串对象方法3.2 正则表达式3.3 pandas中的向量化字符串函数一、处理缺失值1.1 基本方法缺失数据在pandas中呈现的⽅式有些不完美,但对于⼤多数⽤户可以保证功能正常。对于数值数据,pandas使⽤浮

2020-06-16 19:45:52 303

原创 ch06 数据加载、存储与文件格式

数据加载、存储与文件格式一、读写文本格式的数据1.1 基本功能1.2 分块读入文本文件1.3 将数据写入文本格式1.4 使用分隔格式1.5 JSON数据1.6 XML和HTML:网络抓取1.6.1 HTML1.6.2 使用lxml.objectify解析XML二、二进制格式2.1 使用HDF5格式2.2 读取Excel文件三、与Web API交互四、与数据库交互注:在此仅整理了比较简单的一些内容,对于之后不会用到或是用到不多的内容暂不整理pandas提供了⼀些⽤于将表格型数据读取为DataFrame

2020-06-13 09:04:09 576

原创 ch05 pandas入门

pandas入门一、pandas数据结构1.1 Series1.2 DataFrame二、索引2.1 索引对象2.2 重新索引2.3 索引、选取和过滤2.4 整数索引三、基本功能3.1 丢弃指定轴上的项3.2 算术运算和数据对齐3.3 函数应用和映射四、汇总和计算描述统计4.1 汇总与描述统计4.2 唯一值、值计数以及成员资格pandas是本书后续内容的⾸选库。它含有使数据清洗和分析⼯作变得更快...

2020-06-11 10:26:33 503

原创 ch04 NumPy基础

NumPy基础:数组和矢量计算一、Numpy的ndarray1.1 创建ndarry1.2 ndarray的数据类型一、Numpy的ndarray1.1 创建ndarryimport numpy as npdata_0 = np.random.randn(1, 10)data_1 = np.array([1, 2, 3, 4], dtype='float64')data_2 = np...

2020-04-25 20:17:19 282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除