python与机器学习日记——文心一言对话记录节选保存

znr_81

于 2024-03-27 22:10:44 发布

阅读量1.3k

点赞数 24

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/znr_81/article/details/137090371

版权

——个人学习用，不适用于大佬———

虽然以前学过一点python，在Jupiter里练过几行，但都忘记了。今年在朋友的帮助下，下载了pycharm打算好好学习一番，医学小白大战python机器学习。

看了两章西瓜书，先都别管，读取文件试试：一言哥说得先安装pandas：

经过几番尝试，发现得在Anaconda prompt里面写，还得先 activate znr（python环境），再：

pip install pandas

换回python脚本：

import pandas as pd
# 读取Excel文件 ，这里默认打开的是py文件所在的文件夹里的文件
data = pd.read_excel('your_data.xlsx')
#如果是路径
#data = pd.read_excel(r'C:/Users/25475/Documents/your_data.xlsx')


# 查看前几行数据  
print(data.head()

好诶学会了。

机器学习大概流程

接下来机器学习：现在我已经读取了数据集，打算用决策树来进行机器学习，我的数据集包含每个样本的姓名年龄疾病史等特征，BBS分数是标记，那我应该如何开展机器学习呢

一言哥：你已经读取了数据集，并且计划使用决策树来进行机器学习。你的数据集包含每个样本的姓名、年龄、疾病史等特征，以及BBS分数作为标记。以下是一个基本的步骤指南，帮助你开展机器学习：

1. 数据预处理

特征选择：

移除与预测目标（BBS分数）不相关的特征，如姓名，因为它通常不包含对预测有用的信息。
检查是否有其他不需要或重复的特征，并进行相应处理。

数据清洗：

处理缺失值：检查数据集中是否有缺失值，并决定是删除含有缺失值的样本，还是使用某种方法（如均值、中位数、众数或插值）来填充这些缺失值。
处理异常值：检查并处理数据中的异常值或错误值。

特征编码：

对于类别型特征（如疾病史，如果它是文本或分类数据），你需要进行编码，例如使用标签编码（Label Encoding）或独热编码（One-Hot Encoding）。

特征缩放（可选）：

如果你的特征具有不同的尺度或单位，考虑使用标准化或归一化来缩放特征，以帮助某些算法（如决策树算法通常对此不敏感，但对于某些其他算法如KNN或SVM可能很重要）。

2. 划分数据集

将你的数据集划分为训练集和测试集。通常，80%的数据用于训练，20%的数据用于测试。你可以使用train_test_split函数（来自

最低0.47元/天解锁文章

博客等级

码龄2年

2
原创

30
点赞

63
收藏

24
粉丝

关注

私信

热门文章

最新评论

python与机器学习日记——文心一言对话记录节选保存
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
卫生统计学 SAS代码复习
阿J~: 先一键三连，有空慢慢研究
卫生统计学 SAS代码复习
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/614017773。
卫生统计学 SAS代码复习
优快云-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(3)使用更多的站内链接。

大家在看

智启未来：深度解析Python Transformers库及其应用场景 857

最新文章

卫生统计学 SAS代码复习

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。