- 博客(11)
- 收藏
- 关注
原创 k折交叉验证数据获取
k折交叉验证数据获取无注释def get_k_fold_data(k, i, X, y): assert k > 1 n = X.shape[0] fold_size = n // k X_train, y_train = None, None for j in range(k): idx = slice(j*fold_size, (j+1)*fold_size) X_part, y_part = X[idx, :], y
2020-12-07 21:08:33
949
原创 ch04 基本数据管理
基本数据管理一、一个示例一、一个示例manager <- c(1,2,3,4,5)date <- c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")gender <- c("M","F","F","M","F")age <- c(32,45,25,39,99)q1 <- c(5,3,3,3,2)q2 <- c(4,5,5,3,2)q3 <- c(5,2,5,4,1)q4 <- c(5,
2020-10-14 20:11:49
543
原创 Ch02 创建数据集
创建数据集一、数据集的概念二、数据结构2.1 向量2.2 矩阵2.3 数组2.4 数据框2.5 因子2.6 列表三、数据的输入四、数据集的标注五、处理数据对象的实用函数一、数据集的概念…二、数据结构2.1 向量2.2 矩阵2.3 数组2.4 数据框2.5 因子2.6 列表三、数据的输入四、数据集的标注五、处理数据对象的实用函数...
2020-10-13 19:50:13
683
原创 关于样本数量的学习曲线
关于样本数量的学习曲线def plot_learning_curve(estimator,title, X, y, ax=None, #选择子图 ylim=None, #设置纵坐标的取值范围 cv=None, #交叉验证 n_jobs=None #设定索要使用的线程 ):
2020-08-27 16:43:47
470
原创 回归的学习曲线
回归器的学习曲线做作业的时候瞎写了个画回归器学习曲线的函数,一些简单的回归的学习曲线基本上可以用这个函数完成。def regressor_draw_learn_curve(regressor, X, Y, start, end, step_para, step=1, method='mean', cv=5, color=['red', 'orange'], **other_para): #学习曲线。regressor是回归器;sta
2020-08-24 22:25:58
1299
1
原创 ch09 绘图与可视化
绘图与可视化一、matplotlib API入门1.1 图片与子图1.2 颜色、标记和线类型1.3 刻度、标签和图例1.4 注释与子图加工1.5 将图片保存到文件1.6 matplotlib设置二、使用pandas和seaborn绘图2.1 折线图2.2 柱状图2.3 直方图和密度图2.4 散点图或点图2.5 分面网格和分类数据一、matplotlib API入门import numpy as npimport pandas as pdimport matplotlib.pyplot as plt
2020-06-30 14:12:52
617
原创 ch08 数据规整:连接、联合与重塑
数据规整:连接、联合与重塑一、分层索引1.1 基本方法1.2 重排序和层级排序1.3 按层级进行汇总统计1.4 使用DataFrame的列进行索引二、联合与合并数据集2.1 数据库风格的DataFrame连接2.2 根据索引合并2.3 沿轴向连接2.4 联合重叠数据三、重塑和透视3.1 使用多层索引进行重塑3.2 将“长”透视为“宽”3.3 将“宽”透视为“长”一、分层索引1.1 基本方法层次化索引(hierarchical indexing)是pandas的⼀项重要功能,它使你能在⼀个轴上拥有多个(
2020-06-27 09:39:29
312
原创 ch07 数据清理与准备
数据清理与准备一、处理缺失值1.1 基本方法1.2 过滤缺失值1.3 补全缺失值二、数据转换2.1 删除重复值2.2 使用函数或映射进行数据转换2.3 替代值2.4 重命名轴索引2.5 离散化和分箱2.6 检测和过滤异常值2.7 置换和随机抽样2.8 计算指标/虚拟变量三、字符串操作3.1 字符串对象方法3.2 正则表达式3.3 pandas中的向量化字符串函数一、处理缺失值1.1 基本方法缺失数据在pandas中呈现的⽅式有些不完美,但对于⼤多数⽤户可以保证功能正常。对于数值数据,pandas使⽤浮
2020-06-16 19:45:52
303
原创 ch06 数据加载、存储与文件格式
数据加载、存储与文件格式一、读写文本格式的数据1.1 基本功能1.2 分块读入文本文件1.3 将数据写入文本格式1.4 使用分隔格式1.5 JSON数据1.6 XML和HTML:网络抓取1.6.1 HTML1.6.2 使用lxml.objectify解析XML二、二进制格式2.1 使用HDF5格式2.2 读取Excel文件三、与Web API交互四、与数据库交互注:在此仅整理了比较简单的一些内容,对于之后不会用到或是用到不多的内容暂不整理pandas提供了⼀些⽤于将表格型数据读取为DataFrame
2020-06-13 09:04:09
576
原创 ch05 pandas入门
pandas入门一、pandas数据结构1.1 Series1.2 DataFrame二、索引2.1 索引对象2.2 重新索引2.3 索引、选取和过滤2.4 整数索引三、基本功能3.1 丢弃指定轴上的项3.2 算术运算和数据对齐3.3 函数应用和映射四、汇总和计算描述统计4.1 汇总与描述统计4.2 唯一值、值计数以及成员资格pandas是本书后续内容的⾸选库。它含有使数据清洗和分析⼯作变得更快...
2020-06-11 10:26:33
503
原创 ch04 NumPy基础
NumPy基础:数组和矢量计算一、Numpy的ndarray1.1 创建ndarry1.2 ndarray的数据类型一、Numpy的ndarray1.1 创建ndarryimport numpy as npdata_0 = np.random.randn(1, 10)data_1 = np.array([1, 2, 3, 4], dtype='float64')data_2 = np...
2020-04-25 20:17:19
282
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人