Mao～-优快云博客

原创 numpy task 02

副本与视图在numpy中，尤其是在做数组运算或数组操作时，返回结果不是数组的副本就是视图在numpy中，所有复制运算不会为数组和数组中的任何元素创建副本 numpy.ndarray.copy()函数创建一个副本。对副本进行修改，不会影响到原始数据，物理内存不在同一位置。 import numpy as np x = np.array([1, 2, 3, 4, 5, 6, 7, 8]) y = x y[0] = -1 print(x) # [-1 2 3 4 5 6 7 8] print

2020-10-23 18:01:22 171

原创 Numpy task01

ndarray 大数据容器执行数学运算容器内所有的元素必须是相同类型的构成：一个shape（一个表示各维度大小的原件）和 dtype（一个用于说明数组数据类型的对象）创建ndarry

2020-10-20 20:24:57 324

原创数据清理、转换、合并、重塑

dataframe合并 # - merge 默认做的是inner链接，取得数据之间的交集 df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)}) df2 = DataFrame({'key': ['a', 'b', 'd'], 'data2': range(3)}) df1 key data1 0 b 0 1 b 1 2 a 2 3 c 3 4 a 4 5 a 5 6 b 6 df2 ke

2020-09-10 16:56:29 457

原创复习数据分析task01 pandas入门

pandas series dataframe ##Series 3. 由一组数据和一组与之相关的数据标签（即索引）组成 obj = Series([4, 5, -5, 3]) obj 0 4 1 7 2 -5 3 3 #表现形式极为索引在左，值在右边 #如果需要表现获取数组表现形式和索引对象 #用values获取数值 obj.values orray([4, 7, -5, 3]) #用index获取索引对象 obj.index Int64Index([0, 1, 2, 3]) #series对每

2020-09-02 17:18:08 370

原创数据分析建模和评估

# sklearn模型算法选择路径图 Image('sklearn.png') ''' 任务一：切割训练集和测试集这里使用留出法划分数据集将数据集分为自变量和因变量按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%) 使用分层抽样设置随机种子以便结果能复现 ''' from sklearn.model_selection import train_test_split X = data y = train['Survived'] X_train, X_test,

2020-08-28 20:34:09 448

原创数据可视化

#引入约定 import matplotlib.pyplot as plt #matplotlib 图像保存在figure对象里 #创建新的figure fig = plt.figure() #其中figsize用于确保图片保存时的纵横比 #绘图需要创建一个或多个 subplot axi = fig.add_subplot(2, 2, 1) axi = fig.add_subplot(2, 2, 2) axi = fig.add_subplot(2, 2, 3) #代码意思图像是2*2 大小，选中的是第

2020-08-26 10:40:43 139

原创数据重组

1.groupby机制第一步，数据包含在pandas对象中，可以是Series、DataFrame或其他数据结构第二步，根据你提供的一个或多个键分离到各个组中注：分离操作是在数据对象的特定轴向上进行的。第三步，函数就应用到各个组中，产生新的值第四步，所有函数的应用结果联合为一个结果对象 2.分组键可是多种形式，并且键不一定是完全相同的类型（1）与需要分组的轴向长度一致的值列表或值数组（2） DataFrame的列名的值（3）可以将分组轴向上的值和分组名称相匹配的字典或Series （4）可

2020-08-23 22:25:00 2356

原创数据清洗

第二章第一节数据清洗第一部分数据处理第二部分特征观察与处理

2020-08-21 22:39:17 171

原创数据分析task1

数据加载 1.1 导入numpy和pandas import numpy as np import pandas as pd 1.2 载入数据 #使用相对路径载入数据-相对路径就是以当前文件为基准进行一级级目录指向被引用的资源文件 df = pd.read_csv('train.csv') #使用绝对路径载入数据-绝对路径就是文件的真正存在的路径，是指从硬盘的根目录(盘符)开始，进行一级级目录指向文件。 df = pd.read_csv('D:\学习\动手学数据分析-组队学习版\第一单元项目集合/tr.

2020-08-19 22:05:44 222

JoannaMao的博客

原创 numpy task 02

原创 Numpy task01

原创数据清理、转换、合并、重塑

原创复习数据分析task01 pandas入门

原创数据分析建模和评估

原创数据可视化

原创数据重组

原创数据清洗

原创数据分析task1

原创 task 04

原创 task03异常处理

原创 task02 条件循环结构

原创 Task01：变量、运算符、数据类型及位运算

空空如也

空空如也