51、多标签分类的表示学习与竞赛解决方案

最新推荐文章于 2025-09-24 12:28:42 发布

rust6ferris

最新推荐文章于 2025-09-24 12:28:42 发布

阅读量45

点赞数

CC 4.0 BY-SA版权

分类专栏：粗糙集理论与现代计算趋势文章标签：多标签分类表示学习 SIAM 2007 数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/149608658

粗糙集理论与现代计算趋势专栏收录该内容

51 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

多标签分类的表示学习与竞赛解决方案

1. 多标签文本分类的额外验证：SIAM 2007 数据集

在文本挖掘领域，常用词袋（或更通用的 n - 元语法）来表示文档。为每个文档 - 术语对赋予权重，如 TF - IDF 频率。这种表示通常维度高，只有少数非零项对应文档中出现的 n - 元语法。

1.1 数据集介绍

选用 SIAM 2007 竞赛使用的 ASRS（航空安全报告系统）数据集。该数据集约有 21000 个训练文档和 7000 个测试文档，标签是 22 维二进制向量，代表一个或多个飞机安全问题，如天气、燃油紧急情况、乘客干扰、飞行员注意力和跑道障碍物等。

1.2 数据预处理与模型选择

为获取文档的初始表示，先对数据进行预处理，包括转换为小写和去除停用词。然后选取 5000 个最频繁的词，构建未归一化 TF - IDF 值的文档 - 术语矩阵。IDF 值从训练集获取，并结合每个测试点计算的频率应用。模型选择与 JRS 竞赛数据的方式相同，使用相同数量的主成分（1600）和基（3200）。

1.3 分类性能比较

<

方法	精度	召回率	F - 度量	误差
SIAM 获胜者（分数）	61.53	62.37	61.95	6.80

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。