#导入库
import pandas as pd
import numpy as np
from sklearn.utils import shuffle
#读取数据(注意是文件路径,即需要加文件后缀)
xlsx1_filePath = 'D:/study/radiomics/data/breast_cancer1.xlsx'
xlsx2_filePath = 'D:/study/radiomics/data/breast_cancer2.xlsx'
data_1 = pd.read_excel(xlsx1_filePath)
data_2 = pd.read_excel(xlsx2_filePath)
#看行列数
rows,cols = data_1.shape
print(rows,cols)
#看前几行
data_1.head()
#看列标题
data_1.columns
#新增一列(从0行开始,每行定义为1)
data_1.insert(0,'lable1',[1]*rows)
#新增后查看
data_1.head()
#定义数据(合并前)
rows_2,cols_2=data_2.shape
#合并数据
data=pd.concat([data_1,data_2])
#混序
data=shuffle(data)
#排除无效数据NaN
data['FrequencySize']=np.nan
#无效数据NaN赋值
data=data.fillna(0)
#附加
#选择多列
data[['列名称1','列名称2']]
#选择出自变量X及因变量Y数据集
#第一种
x_train=data_train.drop(["status"],axis=1)
y_train=data_train["status"]
#第二种
y_train=data_upsampled["status"] #y数据集
x_train=data_upsampled.iloc[:,1:] #x数据集
#选择多行(左闭右开区间)
data[0:2]
#定向选择
data.iloc[1:4,3:6]
#若无限则只用:
进阶(数据类型)
#数字(整数int,浮点型float)
a=1
b=1.0
print(type(a))
print(type(b))
#字符串string
c=’1’
d=’1.0’
print(type(c))
print(type(d))
#布尔值bool
e=true
f=false
print(type(e))
print(type(f))
#赋值及运算
x=1
y=2
z=x
x=y
y=z
print(x,y)
python基操(英文环境下输入代码)
于 2020-09-03 23:38:41 首次发布
本文详细介绍了使用Python的Pandas库进行数据处理和分析的方法,包括数据读取、数据清洗、数据合并、数据选择等关键步骤,并展示了如何通过填充无效数据、选择训练集和测试集来准备数据,为机器学习和数据分析打下坚实的基础。
部署运行你感兴趣的模型镜像
您可能感兴趣的与本文相关的镜像
Python3.10
Conda
Python
Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本
2329

被折叠的 条评论
为什么被折叠?



