Keras入门与应用

最新推荐文章于 2024-12-12 22:55:15 发布

少年初心

最新推荐文章于 2024-12-12 22:55:15 发布

阅读量616

点赞数

分类专栏：深度学习 # 操作笔记文章标签： Keras 文档笔记即用深度学习

本文链接：https://blog.youkuaiyun.com/weixin_45918732/article/details/103407012

版权

深度学习同时被 3 个专栏收录

11 篇文章

订阅专栏

笔记

9 篇文章

订阅专栏

操作

2 篇文章

订阅专栏

文章目录

Sequential —— 单输入单输出堆叠模型
Model —— 函数式模型，多输入多输出
应用——以多输入多输出为例

Sequential —— 单输入单输出堆叠模型

具体文档参考开始使用 Keras Sequential 顺序模型
或者另外一个中文网站

Model —— 函数式模型，多输入多输出

具体文档参考快速开始函数式（Functional）模型
 官网参考文档

常用API

参考：核心网络层
 嵌入层

Input-keras.engine.input_layer.Input()

说明：Input() 用于实例化 Keras 张量
Keras 张量是底层后端(Theano, TensorFlow 或 CNTK) 的张量对象，我们增加了一些特性，使得能够通过了解模型的输入和输出来构建 Keras 模型。
例如，如果 a, b 和 c 都是 Keras 张量，那么以下操作是可行的： model = Model(input=[a, b], output=c)

## 参数
shape: 一个尺寸元组（整数），不包含批量大小。 例如，shape=(32,) 表明期望的输入是按批次的 32 维向量。
batch_shape: 一个尺寸元组（整数），包含批量大小。 例如，batch_shape=(10, 32) 表明期望的输入是 10 个 32 维向量。 batch_shape=(None, 32) 表明任意批次大小的 32 维向量。
name: 一个可选的层的名称的字符串。 在一个模型中应该是唯一的（不可以重用一个名字两次）。 如未提供，将自动生成。
dtype: 输入所期望的数据类型，字符串表示 (float32, float64, int32...)
sparse: 一个布尔值，指明需要创建的占位符是否是稀疏的。
tensor: 可选的可封装到 Input 层的现有张量。 如果设定了，那么这个层将不会创建占位符张量。


##返回
一个张量。

##例

# 这是 Keras 中的一个逻辑回归
x = Input(shape=(32,))
y = Dense(16, activation='softmax')(x)
model = Model(x, y)

Flatten——keras.layers.Flatten(data_format=None)

将输入展平。不影响批量大小。

##参数
data_format：一个字符串，其值为 channels_last（默认值）或者 channels_first。它表明输入的维度的顺序。此参数的目的是当模型从一种数据格式切换到另一种数据格式时保留权重顺序。channels_last 对应着尺寸为 (batch, ..., channels) 的输入，而 channels_first 对应着尺寸为 (batch, channels, ...) 的输入。默认为 image_data_format 的值，你可以在 Keras 的配置文件 ~/.keras/keras.json 中找到它。如果你从未设置过它，那么它将是 channels_last


##例
model = Sequential()
model.add(Conv2D(64, (3, 3),
                 input_shape=(3, 32, 32), padding='same',))
# 现在：model.output_shape == (None, 64, 32, 32)

model.add(Flatten())
# 现在：model.output_shape == (None, 65536)

Embedding

keras.layers.Embedding(input_dim, output_dim, embeddings_initializer=‘uniform’, embeddings_regularizer=None, activity_regularizer=None, embeddings_constraint=None, mask_zero=False, input_length=None)

将正整数（索引值）转换为固定尺寸的稠密向量。例如： [[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]]
该层只能用作模型中的第一层。

例子：

model = Sequential()
model.add(Embedding(1000, 64, input_length=10))
# 模型将输入一个大小为 (batch, input_length) 的整数矩阵。
# 输入中最大的整数（即词索引）不应该大于 999 （词汇表大小）
# 现在 model.output_shape == (None, 10, 64)，其中 None 是 batch 的维度。

input_array = np.random.randint(1000, size=(32, 10))

model.compile('rmsprop', 'mse')
output_array = model.predict(input_array)
assert output_array.shape == (32, 10, 64)

参数


input_dim: int > 0。词汇表大小， 即，最大整数 index + 1。
output_dim: int >= 0。词向量的维度。
embeddings_initializer: embeddings 矩阵的初始化方法 (详见 initializers)。
embeddings_regularizer: embeddings matrix 的正则化方法 (详见 regularizer)。
embeddings_constraint: embeddings matrix 的约束函数 (详见 constraints)。
mask_zero: 是否把 0 看作为一个应该被遮蔽的特殊的 "padding" 值。 这对于可变长的 循环神经网络层 十分有用。 如果设定为 True，那么接下来的所有层都必须支持 masking，否则就会抛出异常。 如果 mask_zero 为 True，作为结果，索引 0 就不能被用于词汇表中 （input_dim 应该与 vocabulary + 1 大小相同）。
input_length: 输入序列的长度，当它是固定的时。 如果你需要连接 Flatten 和 Dense 层，则这个参数是必须的 （没有它，dense 层的输出尺寸就无法计算）。


##输入尺寸
尺寸为 (batch_size, sequence_length) 的 2D 张量。

##输出尺寸
尺寸为 (batch_size, sequence_length, output_dim) 的 3D 张量。

层「节点」的概念

每当你在某个输入上调用一个层时，都将创建一个新的张量（层的输出），并且为该层添加一个「节点」，将输入张量连接到输出张量。当多次调用同一个图层时，该图层将拥有多个节点索引 (0, 1, 2…)。

在之前版本的 Keras 中，可以通过 layer.get_output()来获得层实例的输出张量，或者通过 layer.output_shape 来获取其输出形状。现在你依然可以这么做（除了 get_output()已经被output属性替代）。但是如果一个层与多个输入连接呢？

一个输出只要一个层仅仅连接到一个输入，就不会有困惑，.output 会返回层的唯一输出：

a = Input(shape=(280, 256))

lstm = LSTM(32)
encoded_a = lstm(a)

assert lstm.output == encoded_a

多输出

assert lstm.get_output_at(0) == encoded_a
assert lstm.get_output_at(1) == encoded_b

查看单输入和多输入

a = Input(shape=(32, 32, 3))
b = Input(shape=(64, 64, 3))

conv = Conv2D(16, (3, 3), padding='same')
conved_a = conv(a)

# 到目前为止只有一个输入，以下可行：
assert conv.input_shape == (None, 32, 32, 3)

conved_b = conv(b)
# 现在 `.input_shape` 属性不可行，但是这样可以：
assert conv.get_input_shape_at(0) == (None, 32, 32, 3)
assert conv.get_input_shape_at(1) == (None, 64, 64, 3)

训练参数详解

例子1：
假设训练集有1000个样本，batchsize=10，那么：
训练完整个样本集需要： 100次iteration，1次epoch。
具体的计算公式为： one epoch = numbers of iterations = N = 训练样本的数量/batch_size
例子2：
假设样本数量为2000, batch_size为500
epochs一次指的是训练完全部样本一次，那么这里就是指训练完2000个样本
batch_size: 当样本数很大时，有时需要将样本分为N个batch，这个N就是nb_batch(batch数量)，此时一个batch中包含的样本数量即是batch_size
iteration迭代次数：一个epoch中训练batch的次数，即训练完一个batch就是iteration一次，所以应该等于nb_batch（batch数量）。那么按照这里的假设，一个epoch需要训练2000个样本，一把batch需要训练500样本，即一个iteration需要训练500样本，那么训练完一个epoch需要4个iteration（2000/500）。

应用——以多输入多输出为例

前提：来考虑下面的模型。我们试图预测 Twitter 上的一条新闻标题有多少转发和点赞数。模型的主要输入将是新闻标题本身，即一系列词语，但是为了增添趣味，我们的模型还添加了其他的辅助输入来接收额外的数据，例如新闻标题的发布的时间等。该模型也将通过两个损失函数进行监督学习。较早地在模型中使用主损失函数，是深度学习模型的一个良好正则方法。

多输入多输出Keras

主要输入接收新闻标题本身，即一个整数序列（每个整数编码一个词）。这些整数在 1 到 10,000 之间（10,000 个词的词汇表），且序列长度为 100 个词。

from keras.layers import Input, Embedding, LSTM, Dense
from keras.models import Model

# 标题输入：接收一个含有 100 个整数的序列，每个整数在 1 到 10000 之间。
# 注意我们可以通过传递一个 "name" 参数来命名任何层。
main_input = Input(shape=(100,), dtype='int32', name='main_input')

# Embedding 层将输入序列编码为一个稠密向量的序列，
# 每个向量维度为 512。
x = Embedding(output_dim=512, input_dim=10000, input_length=100)(main_input)

# LSTM 层把向量序列转换成单个向量，
# 它包含整个序列的上下文信息
lstm_out = LSTM(32)(x)

## 辅助输出
auxiliary_output = Dense(1, activation='sigmoid', name='aux_output')(lstm_out)

##  此时，我们将辅助输入数据与 LSTM 层的输出连接起来，输入到模型中：
auxiliary_input = Input(shape=(5,), name='aux_input')
x = keras.layers.concatenate([lstm_out, auxiliary_input])

# 堆叠多个全连接网络层
x = Dense(64, activation='relu')(x)
x = Dense(64, activation='relu')(x)
x = Dense(64, activation='relu')(x)

# 最后添加主要的逻辑回归层
main_output = Dense(1, activation='sigmoid', name='main_output')(x)

## 然后定义一个具有两个输入和两个输出的模型：
model = Model(inputs=[main_input, auxiliary_input], outputs=[main_output, auxiliary_output])

## 现在编译模型，并给辅助损失分配一个 0.2 的权重。如果要为不同的输出指定不同的 loss_weights 或 loss，可以使用列表或字典。 在这里，我们给 loss 参数传递单个损失函数，这个损失将用于所有的输出。

model.compile(optimizer='rmsprop', loss='binary_crossentropy',
              loss_weights=[1., 0.2])
## 我们可以通过传递输入数组和目标数组的列表来训练模型：

model.fit([headline_data, additional_data], [labels, labels],
          epochs=50, batch_size=32)
## 由于输入和输出均被命名了（在定义时传递了一个 name 参数），我们也可以通过以下方式编译模型：

model.compile(optimizer='rmsprop',
              loss={'main_output': 'binary_crossentropy', 'aux_output': 'binary_crossentropy'},
              loss_weights={'main_output': 1., 'aux_output': 0.2})

# 然后使用以下方式训练：
model.fit({'main_input': headline_data, 'aux_input': additional_data},
          {'main_output': labels, 'aux_output': labels},
          epochs=50, batch_size=32)