——个人学习用,不适用于大佬———
虽然以前学过一点python,在Jupiter里练过几行,但都忘记了。今年在朋友的帮助下,下载了pycharm打算好好学习一番,医学小白大战python机器学习。
看了两章西瓜书,先都别管,读取文件试试:一言哥说得先安装pandas:
经过几番尝试,发现得在Anaconda prompt里面写,还得先 activate znr(python环境),再:
pip install pandas
换回python脚本:
import pandas as pd
# 读取Excel文件 ,这里默认打开的是py文件所在的文件夹里的文件
data = pd.read_excel('your_data.xlsx')
#如果是路径
#data = pd.read_excel(r'C:/Users/25475/Documents/your_data.xlsx')
# 查看前几行数据
print(data.head()
好诶学会了。
机器学习大概流程
接下来机器学习:现在我已经读取了数据集,打算用决策树来进行机器学习,我的数据集包含每个样本的姓名年龄疾病史等特征,BBS分数是标记,那我应该如何开展机器学习呢
一言哥:你已经读取了数据集,并且计划使用决策树来进行机器学习。你的数据集包含每个样本的姓名、年龄、疾病史等特征,以及BBS分数作为标记。以下是一个基本的步骤指南,帮助你开展机器学习:
1. 数据预处理
特征选择:
- 移除与预测目标(BBS分数)不相关的特征,如姓名,因为它通常不包含对预测有用的信息。
- 检查是否有其他不需要或重复的特征,并进行相应处理。
数据清洗:
- 处理缺失值:检查数据集中是否有缺失值,并决定是删除含有缺失值的样本,还是使用某种方法(如均值、中位数、众数或插值)来填充这些缺失值。
- 处理异常值:检查并处理数据中的异常值或错误值。
特征编码:
- 对于类别型特征(如疾病史,如果它是文本或分类数据),你需要进行编码,例如使用标签编码(Label Encoding)或独热编码(One-Hot Encoding)。
特征缩放(可选):
- 如果你的特征具有不同的尺度或单位,考虑使用标准化或归一化来缩放特征,以帮助某些算法(如决策树算法通常对此不敏感,但对于某些其他算法如KNN或SVM可能很重要)。
2. 划分数据集
将你的数据集划分为训练集和测试集。通常,80%的数据用于训练,20%的数据用于测试。你可以使用train_test_split
函数(来自