之前用yolo加sort做过目标追踪,后来导师建议可以试试看循环神经网络,当时就很纳闷一般它不是用来处理文本的吗?现在看起来我还是太年轻,从机制上来说,时序数据它好像都能处理。然后突发奇想想做一个聊天机器人来打发时间。然后再尝试把它引入到图像领域。
循环神经网络
相比于输入输出维度固定的卷积神经网络,循环神经网络中的循环单元可以随意控制输入输出的数量,具有很大的灵活性。循环神经网络通过不断对自身网络结构进行复制来构造不同的循环神经网络模型。其结构如下:
这样可以看起来和残差还有点类似,但是实际上它展开之后可以看作:
多输入多输出,从这个角度来看又很像fast-rcnn或者ssd中多尺度检测的结构。
自然语言处理
图像分类会使用ont-hot编码,比如卷积神经网络最后输出(0,1,0)则表示该图像属于第二类。但是自然语言中单词数目过多,如果还用这种方式来处理,效率比较低,然而不能体现单词的词性,因此就有了词嵌入的概念。
词嵌入
词嵌入就是用高维向量来反应一个单词的性质,比如定义橘子为(1,2)1代表为水果,2为黄色;那么苹果就是(