机器学习中特征工程的高级主题与方法
一、前沿研究聚焦
当前,机器学习领域的研究聚焦于多个关键方向。一方面,在数据表示方面,致力于构建层次化和可解释的表示。层次化表示能够从不同抽象层次(如单词、句子、段落等)审视数据,而可解释表示则能生成更具解读性的结果。另一方面,基于Transformer框架的BERT模型愈发流行,为自然语言处理等任务带来了新的突破。
在特征工程(FE)领域,特征选择和降维是备受关注的热门话题。许多优秀的机器学习书籍都涵盖了这些内容,例如《Introduction to Information Retrieval》提供了实现单特征效用指标的具体公式。对于特征选择的研究,不仅有全面的综述,还涉及流式特征选择、无监督特征选择、隐私保护和对抗特征选择等前沿话题。其中,LASSO是最受欢迎的嵌入式特征选择技术之一,Tibshirani对其特征选择能力进行了深入研究。
降维问题则受到多个学科的关注,不同学科从线性代数、优化或概率建模等不同角度进行研究。经典的降维方法可参考《Foundations of Statistical Natural Language Processing》中的相关章节,而新的技术则需查阅研究论文。
二、变长特征向量的处理
传统机器学习算法通常要求输入的特征向量具有固定大小,然而实际应用中许多问题涉及变长的原始数据,如集合、列表、树、图和时间序列等。以下是针对不同类型变长数据的处理方法:
2.1 集合数据处理
集合是最简单的变长原始数据类型,由多个无序元素组成。对于集合数据,可采用以下处理技术:
- 列表指示特征
超级会员免费看
订阅专栏 解锁全文
1569

被折叠的 条评论
为什么被折叠?



