OneR算法_0(python数据挖掘入门与实践-实验2)

本文档展示了如何使用scikit-learn库对鸢尾花数据集进行预处理、特征选择和训练简单的分类模型。首先,数据被离散化,然后通过训练集和测试集进行划分。接下来,计算每个特征对于不同特征值的分类效果,并选择最佳特征。最后,使用选定的特征值预测测试集的结果,并计算预测准确率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章目录

结果

代码

from sklearn.datasets import load_iris
import numpy as np
from collections import defaultdict
from operator import itemgetter
from sklearn.model_selection import train_test_split


#接收数据集,对应类别,特征索引,具体特征值
#返回特征索引具体特征值对分类最好的类别,以及分类错误的数量
def train_feature_value(X, y_true, feature_index, value):
    
    #统计 类别为feature_index且其特征值为value的个体
    class_counts=defaultdict(int)
    for sample,y in zip(X,y_true):
        if(sample[feature_index]==value):
            class_counts[y]+=1
    
    #排序
    sorted_class_counts=sorted(class_counts.items(),key=itemgetter(1),reverse=True)
    
    #符合要求个体最多的类别
    most_frequent_class=sorted_class_counts[0][0]
    
    #计算以该特征值分类符合要求个体最多的类别的错误率
    incorrect_predictions=[class_count for class_value,class_count in class_counts.items() if class_value!=most_frequent_class]
    error=sum(incorrect_predictions)
    
    
    return most_frequent_class,error

#接收数据集,对应类别,特征索引
#返回特征索引每一个特征值分类最好的类别,以及分类错误的数量
def train_on_feature(X, y_true, feature_index):
    values=set(X[:,feature_index])
    predictors={}
    errors=[]

    #计算某个特征其不同特征值分类能力
    for current_value in values:
        predictors[current_value],error=train_feature_value(X, y_true, feature_index, current_value)
        errors.append(error)
    
    return predictors,sum(errors)

#接收训练集
#返回预测器model
#model:feature为用于预测的特征的索引, predictor为特征的特征值对应的预测类别
#model={'feature': 2(特征索引), 'predictor': {0(特征值): 0(对应类别), 1(特征值): 2(类别)}}
def Training(Xd_train, Yd_train):
    all_predictors={}
    errors={}

    #计算每个特征的分类能力
    for feature_index in range(Xd_train.shape[1]):
        predictor,error=train_on_feature(Xd_train,Yd_train,feature_index)
        all_predictors[feature_index]=predictor
        errors[feature_index]=error

    best_feature,minimum_error=sorted(errors.items(),key=itemgetter(1),reverse=False)[0]
    model={'feature':best_feature,'predictor':all_predictors[best_feature]}

    return model

#接收测试集,预测模型
#返回预测集
def predict(Xd_test, model):
    feature_index=model['feature']
    predictor=model['predictor']
    y_predicted=np.array([predictor[int(sample[feature_index])] for sample in Xd_test])

    return y_predicted


#获取数据集
dataset=load_iris()
X=dataset.data
Y=dataset.target

#数据集离散化
attribute_means=X.mean(axis=0)
X_d=np.array(X>=attribute_means,dtype='int')

#数据集分割
Xd_train,X_test,Yd_train,Y_test=train_test_split(X_d,Y,random_state=14)

#预测模型训练
model=Training(Xd_train, Yd_train)
print("The predict model:{0}".format(model))

#预测模型评估
y_predicted=predict(X_test, model)
accuracy=np.mean(y_predicted==Y_test)*100
print("The test accuracy is {:.1f}%".format(accuracy))
在当今计算机视觉领域,深度学习模型在图像分割任务中发挥着关键作用,其中 UNet 是一种在医学影像分析、遥感图像处理等领域广泛应用的经典架构。然而,面对复杂结构和多尺度特征的图像,UNet 的性能存在局限性。因此,Nested UNet(也称 UNet++)应运而生,它通过改进 UNet 的结构,增强了特征融合能力,提升了复杂图像的分割效果。 UNet 是 Ronneberger 等人在 2015 年提出的一种卷积神经网络,主要用于生物医学图像分割。它采用对称的编码器 - 解码器结构,编码器负责提取图像特征,解码器则将特征映射回原始空间,生成像素级预测结果。其跳跃连接设计能够有效传递低层次的细节信息,从而提高分割精度。 尽管 UNet 在许多场景中表现出色,但在处理复杂结构和多尺度特征的图像时,性能会有所下降。Nested UNet 通过引入更深层次的特征融合来解决这一问题。它在不同尺度上建立了密集的连接路径,增强了特征的传递融合。这种“嵌套”结构不仅保持了较高分辨率,还增加了特征学习的深度,使模型能够更好地捕获不同层次的特征,从而显著提升了复杂结构的分割效果。 模型结构:在 PyTorch 中,可以使用 nn.Module 构建 Nested UNet 的网络结构。编码器部分包含多个卷积层和池化层,并通过跳跃连接传递信息;解码器部分则包含上采样层和卷积层,并编码器的跳跃连接融合。每个阶段的连接路径需要精心设计,以确保不同尺度信息的有效融合。 编码器 - 解码器连接:Nested UNet 的核心在于多层次的连接。通过在解码器中引入“skip connection blocks”,将编码器的输出解码器的输入相结合,形成一个密集的连接网络,从而实现特征的深度融合。 训练优化:训练 Nested UNet 时,需要选择合适的损失函数和优化器。对于图像分割任务,常用的损失
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值