keras自学笔记，供以后自己翻阅

最新推荐文章于 2022-09-25 08:49:59 发布

青莲隐身

最新推荐文章于 2022-09-25 08:49:59 发布

阅读量168

点赞数

CC 4.0 BY-SA版权

分类专栏： AI keras 文章标签： keras AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhaoyunfan/article/details/99981221

AI 同时被 2 个专栏收录

3 篇文章

订阅专栏

1 篇文章

订阅专栏

本文深入探讨了Keras库在深度学习中的应用，包括数据预处理、模型构建及训练等核心流程。介绍了如何使用Keras.preprocessing进行文本、序列和图像数据的预处理，以及Keras模型的两种类型：序列模型和通用模型的构建方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 数据处理

keras的数据处理都在Keras.preprocessing这个库里面，有text、sequence和image三个子库。

文字的预处理叫做标注（Tokenize）

（1）文字拆分。text_to_word_sequence函数，中文的话第三方组件做分词，例如结巴分词 pip3 install jieba

（2）建立索引。统一的序号和字词对应，集合，形成字典。或者用onr_hot来编码。索引的建立和自己选取的维度会造成哈希碰撞或者稀疏矩阵的问题

（3）序列补齐（Padding）。矩阵的长宽所限，宽度不够的句子肯定要补齐。还有一种补齐的方式是用类似tcp滑动窗口的形式的形式，主要是针对一定顺序的单词（K）拆分成连续的子串（M），K非常大。一般用pad_sequences函数

（4）转换为矩阵。上面序列补齐的pad_sequences就是哟中矩阵化的方式。对于大量的文本用Keras提供的标注类Tokenizer来处理

（5）使用标注类批量处理文本文件。参考（4）

序列数据预处理

对于时间序列和上面的处理方式一致，不论是补齐还是截断，都是将其相邻的连续N个元素连在一起，即跟自然语言处理中的N元语法（N-Gram）模型类似，还有一个对序列数据做跳跃语法处理的（SkipGram）模型，代表是著名的word2vec。

图像数据的处理

Keras.preprocessing.image.ImageDataGenerator类。这个类生成一个数据生成器（Generator）对象，图像的矩阵数据就那么个结构

2. Keras模型

分两类：序列模型（Sequential）和通用模型（Model），他们之间的拓扑结构不同

eg：比如在Keras手册中就举了一个教神经网络看视频进行自然语言问答的例子。在这个例子中，输入数据有两种：一是视频图像；二是自然语言的提问。首先通过构造多层卷积神经网络使用序列模型来对图像编码，然后将这个模型放入TimeDistributed函数中建立视频编码，最后使用LSTM对编码建模，同时对自然语言也进行从文字到向量的转换，在合并两个网络以后，将合并的网络作为参数输入下一个全连接层进行计算，并输出可能的回答。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。