python基操（英文环境下输入代码）

原创已于 2023-09-19 23:33:05 修改 · 426 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2020-09-03 23:38:41 首次发布

本文详细介绍了使用Python的Pandas库进行数据处理和分析的方法，包括数据读取、数据清洗、数据合并、数据选择等关键步骤，并展示了如何通过填充无效数据、选择训练集和测试集来准备数据，为机器学习和数据分析打下坚实的基础。

部署运行你感兴趣的模型镜像

#导入库
import pandas as pd
import numpy as np
from sklearn.utils import shuffle

#读取数据（注意是文件路径，即需要加文件后缀）
xlsx1_filePath = 'D:/study/radiomics/data/breast_cancer1.xlsx'
xlsx2_filePath = 'D:/study/radiomics/data/breast_cancer2.xlsx'
data_1 = pd.read_excel(xlsx1_filePath)
data_2 = pd.read_excel(xlsx2_filePath)

#看行列数
rows,cols = data_1.shape
print(rows,cols)

#看前几行
data_1.head()

#看列标题
data_1.columns

#新增一列（从0行开始，每行定义为1）
data_1.insert(0,'lable1',[1]*rows)
#新增后查看
data_1.head()

#定义数据（合并前）
rows_2,cols_2=data_2.shape

#合并数据
data=pd.concat([data_1,data_2])

#混序
data=shuffle(data)

#排除无效数据NaN
data['FrequencySize']=np.nan

#无效数据NaN赋值
data=data.fillna(0)

#附加

#选择多列  
data[['列名称1','列名称2']]

#选择出自变量X及因变量Y数据集
#第一种
x_train=data_train.drop(["status"],axis=1)
y_train=data_train["status"]
#第二种
y_train=data_upsampled["status"]  #y数据集
x_train=data_upsampled.iloc[:,1:]     #x数据集

#选择多行(左闭右开区间)  
data[0:2]

#定向选择  
data.iloc[1:4,3:6]
#若无限则只用：


进阶（数据类型）
#数字(整数int，浮点型float)
a=1
b=1.0
print(type(a))
print(type(b))

#字符串string
c=’1’
d=’1.0’
print(type(c))
print(type(d))

#布尔值bool
e=true
f=false
print(type(e))
print(type(f))

#赋值及运算
x=1
y=2
z=x
x=y
y=z
print(x,y)