如何比较两个label间的差异

本文介绍了一种使用CLTFind命令查找特定元素的方法,通过精确的参数设置,可以高效地筛选出符合要求的数据项。此技巧适用于需要从大量数据中快速定位特定类型的场景。
clt find -all -element '{lbtype_sub(MMAPI_G_02.11.04I) && lbtype_sub(MMAPI_G_02.11.05I)}' -version '{(lbtype(MMAPI_G_02.11.04I) && ! lbtype(MMAPI_G_02.11.05I)) || (lbtype(MMAPI_G_02.11.05I) && !lbtype(MMAPI_G_02.11.04I))}' -print
 
明白了!你希望只对两个**智能评分算法**(智能算法1 和 智能算法2)之差异进行比较,而是与人工评分比较。我们将只针对这两个算法进行评分对比,以分析它们在同学科中的差异性。 以下是完整的分析思路与 Python 实现: --- ## 题目重述 题目要求对附件2中五个同学科(dl, sx, yw, yy, zz)的抽样数据进行建模分析,重点比较两个智能评分算法(AI1_score 和 AI2_score)之的评分差异,从评分一致性、稳定性等角度进行建模对比。 --- ## 详解 ### 1. 数据读取与预处理 只读取每个sheet中的两列:`AI1_score` 和 `AI2_score`。 ```python import pandas as pd # 文件路径和sheet名称 file_path = '附件2.xlsx' sheets = ['dl', 'sx', 'yw', 'yy', 'zz'] # 用于保存每个学科的评分数据 ai_scores = {} # 只保留两个智能评分列 columns_to_keep = ['AI1_score', 'AI2_score'] for sheet in sheets: df = pd.read_excel(file_path, sheet_name=sheet)[columns_to_keep] ai_scores[sheet] = df ``` --- ### 2. 指标设计与计算 我们将设计以下指标用于两个智能评分算法的对比分析: #### ① 平均分差(Mean Absolute Difference) $$ \text{MAD} = \frac{1}{n} \sum_{i=1}^{n} |AI1_i - AI2_i| $$ #### ② 标准差差(Standard Deviation Difference) 计算AI1和AI2评分的标准差,判断哪个算法更稳定。 #### ③ 皮尔逊相关系数(Pearson Correlation) $$ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2}} $$ 反映两个算法评分趋势的一致性。 --- ### 3. 指标计算代码实现 ```python # 定义评价指标函数 def compute_metrics(df): mad = (df['AI1_score'] - df['AI2_score']).abs().mean() std_AI1 = df['AI1_score'].std() std_AI2 = df['AI2_score'].std() corr = df['AI1_score'].corr(df['AI2_score']) return { 'MAD': mad, 'std_AI1': std_AI1, 'std_AI2': std_AI2, 'Pearson': corr } # 计算每个学科的指标 results = {sheet: compute_metrics(df) for sheet, df in ai_scores.items()} # 转换为DataFrame便于展示 result_df = pd.DataFrame(results).T print(result_df) ``` --- ### 4. 可视化分析 #### 可视化平均分差(MAD) ```python import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(10, 6)) sns.barplot(x=result_df.index, y='MAD', data=result_df, palette="viridis") plt.title('Average Score Difference Between AI1 and AI2 Across Subjects') plt.xlabel('Subject') plt.ylabel('Mean Absolute Difference') plt.show() ``` #### 可视化皮尔逊相关系数 ```python plt.figure(figsize=(10, 6)) sns.barplot(x=result_df.index, y='Pearson', data=result_df, palette="coolwarm") plt.title('Pearson Correlation Between AI1 and AI2 Scores') plt.xlabel('Subject') plt.ylabel('Correlation Coefficient') plt.axhline(0.9, color='r', linestyle='--', label='Threshold 0.9') plt.legend() plt.show() ``` --- ### 5. 总结建议 - **MAD较小**表示两个算法评分非常接近,适用于一致性要求高的评分场景。 - **标准差小**表示评分更稳定,波动小。 - **皮尔逊系数高**表示两个算法在评分趋势上一致,说明它们可能有相似的评分逻辑。 你还可以进一步使用箱线图、散点图分析评分分布差异,或使用聚类分析寻找评分模式。 --- ## 知识点 1. **统计指标分析**:如MAD、标准差、皮尔逊相关系数,用于评估评分一致性与稳定性。 2. **Pandas数据处理**:支持高效读取、筛选、计算和汇总数据,适用于多表结构化数据操作。 3. **Seaborn可视化**:通过高级绘图库直观展示评分差异和相关性,提升数据解释力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值