医学数据分析实训 项目五 聚类分析--蛋白质消费结构分析--车辆驾驶行为指标

项目五:聚类分析

实践目的
  • 熟悉模型性能评估的方法;
  • 熟悉并掌握 k-means 算法进行聚类分析的方法;
  • 理解聚类分析算法并能使用 k-means 算法分析数据集。
实践平台
  • 操作系统:Windows 7 及以上
  • Python 版本:3.8.x 及以上
  • 开发环境:PyCharm 或 Anaconda 集成环境
实践内容
任务一:蛋白质消费结构分析

数据集文件名为“protein.txt”,主要记录了25个国家的9个属性:

  1. ID:国家的 ID;
  2. Country(国家类别):该数据集涉及25个欧洲国家肉类和其他食品之间的关系;
  3. 关于肉类和其他食品的9个数据包括:
    • RedMeat(红肉)
    • WhiteMeat(白肉)
    • Eggs(蛋类)
    • Milk(牛奶)
    • Fish(鱼类)
    • Cereals(谷类)
    • Starch(淀粉类)
    • Nuts(坚果类)
    • Fr&Veg(水果和蔬菜)

本项目实践所涉及的业务为不同国家蛋白质消费结构分析,主要从数据集中选取不同国家蛋白质食品的消费数据,在此基础上通过k-means算法模型对其进行迭代求解的聚类分析,最后评价聚类效果的优度。

步骤
  1. 数据读入

    • 导入本案例所需的Python包;
    • 使用pandas包中的read_table()方法将数据读入并存为DataFrame格式,查看前5行数据。
  2. 数据理解

    • 通过describe()、info()方法和shape属性对读入的数据对象进行探索性分析;
    • 查看数据集中是否存在缺失值、重复值和异常值;
  3. 数据准备

    • 去除数据集中无关列“Country”,提取有用数据;
    • 为了排除数值的量纲对结果的影响,对数据集进行以均值为中心的标准化处理(Z-Score标准化);
  4. 模型建立及优化

    • 使用k-means算法实现

      1. 使用KMeans()建立模型,设置KMeans()的聚集次数n_clusters参数为5;
      2. 使用模型对数据集进行聚类,并输出聚类结果;
      3. 使用轮廓系数对模型进行评价,设置聚集次数在2-20之间,其他参数自行设置或保持默认,输出聚集次数在2-20之间的每次的轮廓系数,并以聚集次数为横坐标,轮廓系数为纵坐标,使用pyplot()绘制可视化图形;
      4. 轮廓系数越大,聚类效果越好。找出范围内最优的聚集次数,重新建立模型;
      5. 使用优化后的模型对数据集进行聚类,输出聚类结果。
    • 使用高斯混合聚类算法实现

      1. 使用GaussianMixture()建立模型,设置混合高斯模型的个数n_components;
      2. 使用模型对数据集进行聚类,并输出聚类结果;
    • 使用DBSCAN密度聚类算法实现

      1. 使用DBSCAN()建立模型,设置半径eps和最小样本数min_samples;
      2. 使用模型对数据集进行聚类,并输出聚类结果;
    • 使用单链接层次聚类算法实现

      1. 使用AgglomerativeClustering()建立模型,设置聚类簇数n_clusters;
      2. 使用模型对数据集进行聚类,并输出聚类结果;
    • 分别绘制以上四种聚类方法对应的聚类结果散点图,并进行对比。

任务一:蛋白质消费结构分析

数据预处理

# 1. 导入本案例所需的 Python 包
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
from sklearn.mixture import GaussianMixture
from sklearn.cluster import DBSCAN
from sklearn.cluster import AgglomerativeClustering
# 设置显示中文字体
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
# 设置正常显示符号
plt.rcParams['axes.unicode_minus'] = False
import seaborn as sns

# 2. 使用 pandas 包中的 read_table()方法将数据读入并存为 DataFrame 格式,查看前 5 行数据
file_path = "input/protein.txt"

# 读取数据
data = pd.read_table(file_path, encoding='utf-8')

# 查看前 5 行数据
print(data.head(5))
# 1. 探索性分析
# 使用 describe() 方法获取数据的统计信息
print("数据统计信息:",data.describe())

# 使用 info() 方法获取数据的基本信息
print("\n数据基本信息:",data.info())

# 使用 shape 属性获取数据的行数和列数
print("\n数据形状 (行数, 列数):",data.shape)

# 2. 检查缺失值、重复值和异常值
# 检查缺失值
print()
print("\n缺失值检查:",data.isnull().sum())

# 检查重复值
print("重复行数:", data.duplicated().sum())

# # 检查异常值
print("\n异常值检查:")
# 计算每个数值列的上下限
numeric_columns = data.select_dtypes(include=[np.number]).columns
Q1 = data[numeric_columns].quantile(0.25)
Q3 = data[numeric_columns].quantile(0.75)
IQR = Q3 - Q1

# 计算异常值范围
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 检查是否有超出范围的值
outliers = ((data[numeric_columns] < lower_bound) | (data[numeric_columns] > upper_bound)).sum()
print(outliers)
# (三)数据准备
# 去除无关列 "Country"
data = data.drop(columns=['Country'])
# 2.为了排除数值的量纲对结果的影响,对数据集进行以均值为中心的标准化处理(Z-Score 标准化);
scaler = StandardScaler()
data[numeric_columns] = scaler.fit_transform(data[numeric_columns])

# 查看标准化后的数据前5行
print("\n标准化后数据前5行:")
print(data.head())

(四)模型建立及优化

KMeans
# 使用 k-means 算法实现
# (1) 使用 KMeans()建立模型,设置 n_clusters 期望的簇的数量 参数为 5
kmeans_model = KMeans(n_clusters=5, random_state=42)
kmeans_model.fit(data)

# (2) 使用模型对数据集进行聚类,并输出聚类结果
cluster_labels = kmeans_model.labels_
data['Cluster'] = cluster_labels
print("\n聚类结果:",data.head()
《RSMA与速率拆分在有限反馈通信系统中的MMSE基预编码实现》 本文将深入探讨RSMA(Rate Splitting Multiple Access)技术在有限反馈通信系统中的应用,特别是通过MMSE(Minimum Mean Square Error)基预编码进行的实现。速率拆分是现代多用户通信系统中一种重要的信号处理策略,它能够提升系统的频谱效率和鲁棒性,特别是在资源受限和信道条件不理想的环境中。RSMA的核心思想是将用户的数据流分割成公共和私有信息两部分,公共信息可以被多个接收器解码,而私有信息仅由特定的接收器解码。这种方式允许系统在用户间共享信道资源,同时保证了每个用户的个性化服务。 在有限反馈通信系统中,由于信道状态信息(CSI)的获取通常是有限且不精确的,因此选择合适的预编码技术至关重要。MMSE预编码是一种优化策略,其目标是在考虑信道噪声和干扰的情况下最小化期望平方误差。在RSMA中,MMSE预编码用于在发射端对数据流进行处理,以减少接收端的干扰,提高解码性能。 以下代码研究RSMA与MMSE预编码的结合以观察到如何在实际系统中应用RSMA的速率拆分策略,并结合有限的反馈信息设计有效的预编码矩阵。关键步骤包括: 1. **信道模型的建立**:模拟多用户MIMO环境,考虑不同用户之间的信道条件差异。 2. **信道反馈机制**:设计有限反馈方案,用户向基站发送关于信道状态的简化的反馈信息。 3. **MMSE预编码矩阵计算**:根据接收到的有限反馈信息,计算出能够最小化期望平方误差的预编码矩阵。 4. **速率拆分**:将每个用户的传输信息划分为公共和私有两部分。 5. **信号发射与接收**:使用预编码矩阵对信号进行处理,然后在接收端进行解码。 6. **性能评估**:分析系统吞吐量、误码率等性能指标,对比不同策略的效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值