lambda99-优快云博客

原创 Softmax Regression

对于一个手写字体图片识别的任务，人类可以轻而易举的完成，但如果编写一个代码来完成这个任务绝非易事。

2022-10-29 21:55:51 591

原创手写字体识别(2) 数据加载及网络搭建

加载数据以及搭建多层感知机模型和卷积神经网络模型

2022-07-19 21:42:48 482

文本预处理的基本步骤包括以下几个：以今日头条中文新闻（短文本）分类数据集为例。其包含38万条短新闻，包含于15个类中。头条新闻数据集下载数据格式如下所示：每行为一条数据，以_!_分割的个字段，从前往后分别是新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词。下面读取数据，并且切除ID，分类code，分类名称，新闻关键字，只保留标题文本。结果如下：分词在语言学中，词是具备独立意义的最小单位。由合适的词进行排列组合形成有意义的句子。对文本信息进行处理的第一步就是

2022-07-11 21:35:30 1814

原创 (NLP)序列模型

序列数据的定义是一组有先后次序的数据。显然文本也是一种序列模型，一段文字会因为单词的位置发生变化而使语句意思完全改变甚至变成一段没有任何意义的单词组合，例如：可以看到前三句话都是一个有意义的句子，但是所表述的意思不相同，但最后一句已经没有意义了。由有关联的变量组合在一起构成系统，且这些变量随时间变化而变化。这样的系统称为动力学系统。动力其实就是一种映射。处理序列数据需要用到统计工具，深度神经网络也可以进行处理。以股票价格预测为例。其中，xtx_txt表示在时间步t∈Z+t\in{Z^+}t∈Z+时候的价格

2022-07-10 22:57:54 791

原创第四章复合类型(1)

数组是一种数据形式，能够储存多个同类型的值。由于数组的存在，我们就可以避免记录数据时创建大量的变量了，例如需要记录一个月中每天的花销，可以不用创建30个变量，而是使用一个长度为30的数据进行记录。声明数组的通用格式如下：其中arraySize需要在编译之前就必须明确，因此它必须是整型常量或const值，或者常量表达式。这其实是数组的一种局限，因为很多情况下在创建时并不清楚需要多大的数组，可以通过new运算符来避免这种限制。数组使用下标或索引来对元素进行编号，就像按次序排名一样，只不过第一位的下标是0而不是

2022-07-09 23:30:44 632

原创第三章处理数据

C++必须遵循的集中简明命名规则倒数第二点不懂，以后再说。。。C++在创建一个变量时需要指定变量的数据类型。指定数据类型能够让编译器对变量进行储存单元的长度以及储存形式进行安排基本的变量类型有：顾名思义，整型可以储存整数。整型细分为short、int、long以及long long，它们都能够存储整数类型，其唯一区别就是在内存中的长度不同。以int类型为例：这样就创建了一个整型变量，在内存中会有一块长度为四个字节的内存帮助存储这个命名为variable的变量。一个字节一般为8位，因此int类型总共有3

2022-07-08 21:38:58 585

原创第二章开始学习C++

在C++中一般采用cout将消息打印到屏幕上，

2022-07-07 21:16:12 305

qq_43871173的博客

原创 Softmax Regression

原创 tqdm进度条不动

原创第四章复合类型(2)

原创 RocketQA论文阅读总结

原创手写字体识别(3) 训练及测试