RNN与NLP应用-数据处理基础

一、Categorical Feature 的 One - hot Encoding(以国籍为例)

  1. 先用正整数表示
    对于国籍这种分类特征,首先用不同的正整数来表示各个国家,如中国:1,美国:2,英国:3等。但要注意,这种整数表示存在问题,因为国家之间并无顺序和大小关系。

  2. 进一步用One - hot 编码
    使用 one - hot 编码进一步处理。每个国家可表示为一个特定维度(如 197 维)的向量。例如,中国是 10000…000,美国是 01000…000,若一个人既有美国国籍又有中国国籍则为 11000…000。对于数据库中的缺失国籍,可以编码为 00000…000。

这样编码后的国籍特征即可进行后面的计算等操作。


二、文本处理

  1. Tokenization(Text to Words)

    • 划分单词:文本处理的起始步骤是将文本划分为单词。在此过程中需要考虑以下问题:
      • 大小写处理:需确定是否对大小写进行统一处理。
      • 停用词移除:像 of、a、the 这类停用词需要移除。
      • 拼写校正:对一些拼写错误(如 goood -> good)进行校正。
  2. Count Word Frequencies and Build Dictionary

    • 统计词频与构建字典:统计单词出现的频率,并将哈希表按照词频递减的顺序排列。然后将词频转换为正整数,词频最高的单词被映射为 1,依此类推。低频词(如名字或者错误的单词)可从哈希表中删除,遇到此类词可以不翻译或者直接跳过。最终定义哈希表中单词的种类为 v(即 vocabulary)。
  3. Encoding

    • 单词编码:通过查字典将句子中的单词映射到对应的正整数,这样每个句子
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追逐远方的梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值