- 博客(12)
- 收藏
- 关注
原创 (NLP)文本预处理
文本预处理的基本步骤包括以下几个:以今日头条中文新闻(短文本)分类数据集为例。其包含38万条短新闻,包含于15个类中。头条新闻数据集下载数据格式如下所示:每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词。下面读取数据,并且切除ID,分类code,分类名称,新闻关键字,只保留标题文本。结果如下:分词在语言学中,词是具备独立意义的最小单位。由合适的词进行排列组合形成有意义的句子。对文本信息进行处理的第一步就是
2022-07-11 21:35:30
1685
原创 (NLP)序列模型
序列数据的定义是一组有先后次序的数据。显然文本也是一种序列模型,一段文字会因为单词的位置发生变化而使语句意思完全改变甚至变成一段没有任何意义的单词组合,例如:可以看到前三句话都是一个有意义的句子,但是所表述的意思不相同,但最后一句已经没有意义了。由有关联的变量组合在一起构成系统,且这些变量随时间变化而变化。这样的系统称为动力学系统。动力其实就是一种映射。处理序列数据需要用到统计工具,深度神经网络也可以进行处理。以股票价格预测为例。其中,xtx_txt表示在时间步t∈Z+t\in{Z^+}t∈Z+时候的价格
2022-07-10 22:57:54
726
原创 第四章 复合类型(1)
数组是一种数据形式,能够储存多个同类型的值。由于数组的存在,我们就可以避免记录数据时创建大量的变量了,例如需要记录一个月中每天的花销,可以不用创建30个变量,而是使用一个长度为30的数据进行记录。声明数组的通用格式如下:其中arraySize需要在编译之前就必须明确,因此它必须是整型常量或const值,或者常量表达式。这其实是数组的一种局限,因为很多情况下在创建时并不清楚需要多大的数组,可以通过new运算符来避免这种限制。数组使用下标或索引来对元素进行编号,就像按次序排名一样,只不过第一位的下标是0而不是
2022-07-09 23:30:44
582
原创 第三章 处理数据
C++必须遵循的集中简明命名规则倒数第二点不懂,以后再说。。。C++在创建一个变量时需要指定变量的数据类型。指定数据类型能够让编译器对变量进行储存单元的长度以及储存形式进行安排基本的变量类型有:顾名思义,整型可以储存整数。整型细分为short、int、long以及long long,它们都能够存储整数类型,其唯一区别就是在内存中的长度不同。以int类型为例:这样就创建了一个整型变量,在内存中会有一块长度为四个字节的内存帮助存储这个命名为variable的变量。一个字节一般为8位,因此int类型总共有3
2022-07-08 21:38:58
528
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人