基于循环神经网络的自然语言处理深度迁移学习
1. 数据预处理
在进行深度迁移学习实验之前,需要对数据进行预处理。这里主要涉及表格列类型分类数据和事实核查示例数据的预处理。
1.1 表格列类型分类数据预处理
首先,我们需要对表格数据进行预处理,将其转换为适合 SIMOn 模型使用的数字编码。以下是具体步骤:
1. 设置参数 :
max_len = 20 # maximum length of each tabular cell
Categories = encoder.categories
category_count = len(Categories)
print(encoder.categories)
处理的类别如下:
['address', 'boolean', 'datetime', 'email', 'float', 'int', 'phone', 'text', 'uri']
- 编码预处理数据 :
使用编码器将表格数据转换为数字,具体代码如下:
X_baseball = encoder.encodeDataFrame(raw_baseball_data)
print(X_baseball.shape)
print(X_baseball[0]
超级会员免费看
订阅专栏 解锁全文
2676

被折叠的 条评论
为什么被折叠?



