这里写目录标题
1.序列模型
分类问题与预测问题
- 图像分类:当前输入->当前输出
- 时间序列预测:当前+过去输入->当前输出
自回归模型
2.数据预处理
2.1特征编码
- 第1列表示年龄,是一个数值特征
- 第2列表示性别,是一个只有位( 0,1)的特征
0 -> Male, 1 > Male, 1 > Male, 1 > Male, 1 -> Female > Female > Female - 第3列表示国籍,目前有 197 个国家1 -> US, 2 -> China,
可以用一个整数来表示,或者独热 向量来表示 , 如US: [1,0, ….,0]
2.2文本处理
按字母处理
例如:S=“… to be or not to be”
将文本切分为字母排列:
L=[…, ‘t’, ‘o’, ’ ', ‘b’, ‘e’]
按单词处理文本切分
给定文本片段,如:S=“… to be or not to be”
将文本切分为单词序列:
L=[…,to,be,or,not,to,be]
3.文本预处理与词嵌入
3.1文本预处理
一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。我们将解析文本的常见预处理步骤。 这些步骤通常包括:
- 将文本作为字符串加载到内存中。
- 将字符串切分为词元(如单词和字符)。
- 建立一个字典,将拆分的词元映射到数字索引。
- 将文本转换为数字索引序列,方便模型操作。