迁移学习中的领域自适应研究
1. 数据概述
本次研究选取了多个领域的数据,包括书籍、DVD、厨房用品和电子产品领域。每个领域都有 2000 个带有二元标签(积极和消极)的标注示例,这些标签基于相关评论生成。其中,厨房用品和电子产品领域还有大量未标注的示例,但在实验中,未使用这些未标注示例,而是在需要时将部分标注示例视为未标注。
实验选择了两种不同的源 - 目标领域组合:
- 源领域为厨房用品,目标领域为电子产品。
- 源领域为书籍,目标领域为厨房用品。
所有数据集被划分为训练集和测试集,分别包含 1600 个和 400 个示例。验证数据从训练数据集中选取,可以是按百分比选取或分层抽样。虽然实验目标并非复制论文或对每个方法进行微调以获得最佳结果,但还是进行了一些参数调整,并保持大多数参数为标准值或常量,以观察相对影响。
2. 软件工具和库
在案例研究中,使用了以下主要的开源工具和库:
- Keras (www.keras.io)
- TensorFlow (https://www.tensorflow.org/)
- Pandas (https://pandas.pydata.org/)
- scikit - learn (http://scikit - learn.org/)
- Matplotlib (https://matplotlib.org/)
3. 探索性数据分析
与其他案例研究类似,进行了一些基本的探索性数据分析(EDA),以了解数据及其特征。以下是从不同角度进行的分析:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



