开始kaggle之旅:泰坦尼克

由于博客内容为空,暂无法提供包含关键信息的摘要。
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LinearRegression
from sklearn.naive_bayes import GaussianNB

# 处理训练集
train_df = pd.read_csv('train.csv')
train_df = train_df[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
train_df['Age'] = train_df['Age'].fillna(train_df['Age'].mean())
train_df['Embarked'] = train_df['Embarked'].fillna('S')
train_df = pd.get_dummies(train_df)

# 取出标签数据
train_y = train_df['Survived']
train_X = train_df.drop(['Survived'], axis=1)

# 归一化处理
is_norm = True
if is_norm:
    columns = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
    for column in columns:
        train_X[column] = (train_X[column]-train_X[column].min())/(train_X[column].max()-train_X[column].min())

train_X


# 处理测试集
test_df = pd.read_csv('test.csv')
test_df_PassengerId = test_df['PassengerId']
test_df = test_df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']]
test_df['Age'] = test_df['Age'].fillna(test_df['Age'].mean())
test_df['Embarked'] = test_df['Embarked'].fillna('S')
test_df['Fare'] = test_df['Fare'].fillna(test_df['Fare'].mean()) # test这个才又缺失
test_df = pd.get_dummies(test_df)
test_df

test_X = test_df.copy()
# # 归一化处理
is_norm = True
if is_norm:
    columns = ['Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
    for column in columns:
        test_X[column] = (test_X[column]-test_X[column].min())/(test_X[column].max()-test_X[column].min())

test_X

# 交叉验证下哪个模型更好
clf = LinearRegression()
scores = cross_val_score(clf, train_X, train_y, cv=5)
print(scores.mean())

clf = GaussianNB()
scores = cross_val_score(clf, train_X, train_y, cv=5)
print(scores.mean())

clf = DecisionTreeClassifier(max_depth=None, min_samples_split=2, random_state=0)
scores = cross_val_score(clf, train_X, train_y, cv=5)
print(scores.mean())

clf = RandomForestClassifier(n_estimators=10, max_depth=None, min_samples_split=2, random_state=0)
scores = cross_val_score(clf, train_X, train_y, cv=5)
print(scores.mean())

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)
scores = cross_val_score(clf, train_X, train_y, cv=5)
print(scores.mean())

# 打印结果为:
# 0.36997733678159256
# 0.789031476490955
# 0.7688948491499535
# 0.7969095538067237
# 0.8137383781115382

# 看起来GradientBoostingClassifier结果更好,所以我们用这个来预测test数据
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(train_X, train_y)
predictions = clf.predict(test_X)

submission = pd.DataFrame({ 'PassengerId': test_df_PassengerId,
                            'Survived': predictions })
submission.to_csv("submission.csv", index=False)

 

胚胎实例分割数据集 一、基础信息 • 数据集名称:胚胎实例分割数据集 • 图片数量: 训练集:219张图片 验证集:49张图片 测试集:58张图片 总计:326张图片 • 训练集:219张图片 • 验证集:49张图片 • 测试集:58张图片 • 总计:326张图片 • 分类类别: 胚胎(embryo):表示生物胚胎结构,适用于发育生物学研究。 • 胚胎(embryo):表示生物胚胎结构,适用于发育生物学研究。 • 标注格式:YOLO格式,包含实例分割的多边形标注,适用于实例分割任务。 • 数据格式:图片来源于相关研究领域,格式为常见图像格式,细节清晰。 二、适用场景 • 胚胎发育AI分析系统:构建能够自动分割胚胎实例的AI模型,用于生物学研究中的形态变化追踪和量化分析。 • 医学与生物研究:在生殖医学、遗传学等领域,辅助研究人员进行胚胎结构识别、分割和发育阶段评估。 • 学术与创新研究:支持计算机视觉与生物医学的交叉学科研究,推动AI在胚胎学中的应用,助力高水平论文发表。 • 教育与实践培训:用于高校或研究机构的实验教学,帮助学生和从业者掌握实例分割技术及胚胎学知识。 三、数据集优势 • 精准与专业性:实例分割标注由领域专家完成,确保胚胎轮廓的精确性,提升模型训练的可靠性。 • 任务专用性:专注于胚胎实例分割,填补相关领域数据空白,适用于细粒度视觉分析。 • 格式兼容性:采用YOLO标注格式,易于集成到主流深度学习框架中,简化模型开发与部署流程。 • 科学价值突出:为胚胎发育研究、生命科学创新提供关键数据资源,促进AI在生物学中的实际应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值