一、Categorical Feature 的 One - hot Encoding(以国籍为例)
-
先用正整数表示
对于国籍这种分类特征,首先用不同的正整数来表示各个国家,如中国:1,美国:2,英国:3等。但要注意,这种整数表示存在问题,因为国家之间并无顺序和大小关系。 -
进一步用One - hot 编码
使用 one - hot 编码进一步处理。每个国家可表示为一个特定维度(如 197 维)的向量。例如,中国是 10000…000,美国是 01000…000,若一个人既有美国国籍又有中国国籍则为 11000…000。对于数据库中的缺失国籍,可以编码为 00000…000。
这样编码后的国籍特征即可进行后面的计算等操作。
二、文本处理
-
Tokenization(Text to Words)
- 划分单词:文本处理的起始步骤是将文本划分为单词。在此过程中需要考虑以下问题:
- 大小写处理:需确定是否对大小写进行统一处理。
- 停用词移除:像 of、a、the 这类停用词需要移除。
- 拼写校正:对一些拼写错误(如 goood -> good)进行校正。
- 划分单词:文本处理的起始步骤是将文本划分为单词。在此过程中需要考虑以下问题:
-
Count Word Frequencies and Build Dictionary
- 统计词频与构建字典:统计单词出现的频率,并将哈希表按照词频递减的顺序排列。然后将词频转换为正整数,词频最高的单词被映射为 1,依此类推。低频词(如名字或者错误的单词)可从哈希表中删除,遇到此类词可以不翻译或者直接跳过。最终定义哈希表中单词的种类为 v(即 vocabulary)。
-
Encoding
- 单词编码:通过查字典将句子中的单词映射到对应的正整数,这样每个句子