keras入门与基础

Keras入门与基础

  Keras是基于tensorflow或theano实现的高层次封装库,他实现了很多常用的层,包括全连接、卷积、LSTM等等,可以很方便地调用实现各种各样的网络结构。如果网络不太复杂,不怎么需要自己魔改一些细节(例如实现一个带padding的meanpooling之类的),用keras能让你很快地实现一个模型。
  本文给出了keras的基本使用方法,方便以后用keras实现一些网络。个人对keras的印象有三点,首先是简单,代码可以非常地简洁;其次是固化,很多层虽然已经定义好,但如果想做一些魔改就得重新自己写个层,比较不方便;第三点是查看输出比较不方便,这应该是tensorflow和theano决定的,想要方便地查看还是用PyTroch吧。
  以下的全部内容,都可以在这里这里(中文版)找到。


一、如何构建网络

实现一个简单的LSTM,以下两种方式等价。

方法一 序贯模型 (Sequential)
from keras.layers import *
from keras.models import *

model = Sequential()
model.add(Dense(6, input_shape=(None, 6)))
model.add(LSTM(128))
model.add(Dense(10, activation='softmax'))
方法二 函数模型 (Functional)
from keras.layers import *
from keras.models import *

input_tensor = Input((None,6))
dense_1 = Dense(6)(input_tensor)
lstm = LSTM(128)(dense_1)
output = Dense(10, activation='softmax')(lstm)
model = Model(inputs=[input_tensor], outputs=[output])

二、如何编译网络

网络结构定义好之后,仍需进行编译,指定loss和optimizer

# 使用keras定义好的loss和optimizer
model.compile(loss='categorical_crossentropy', optimizer='adam')

当然,你也可以自定义loss

# 自定义loss function (该loss函数在功能上与keras的mse一样)
def my_mse(y_true, y_pred):
    return K.mean(K.square(y_pred - y_true), axis=-1)

model.compile(loss=my_mse, optimizer='adadelta')

loss函数的本质是y_true与y_pred对比,至于y_pred如何生成,可以自定义

from keras import backend as K

def ctc_lambda_func(args):
    y_pred, labels, input_length, label_length = args
    y_pred = y_pred[:, 2:, :]
    return K.ctc_batch_cost(labels, y_pred, input_length, label_length)

labels = Input(name='the_labels', shape=[n_len], dtype='float32')
input_length = Input(name='input_length', shape=[1], dtype='int64')
label_length = Input(name='label_length', shape=[1], dtype='int64')
loss_out = Lambda(ctc_lambda_func, output_shape=(1,), name='ctc')([output, labels, input_length, label_length])

model = Model(input=[input_tensor, labels, input_length, label_length], output=[loss_out])
model.compile(loss={'ctc': lambda y_true, y_pred: y_pred}, optimizer='adadelta')

三、如何让网络训练跑起来

模型在编译完成后,准备好相应符合格式的训练数据和label,即可调用fit训练,设定要跑的epoch,还有batch_size。

# x_train 和 y_train 可以是 Numpy 数组
model.fit(x_train, y_train, epochs=50, batch_size=32)

四、如何保存和读取模型

1. h5格式

model.save 保存
model.save('model.h5')

将会保存如下内容:

  • 模型的结构,以便重构该模型
  • 模型的权重
  • 训练配置(损失函数,优化器等)
  • 优化器的状态,以便于从上次训练中断的地方开始
load_model 读取
from keras.models import load_model

model = load_model('model.h5')

2. json格式

model.to_json() 保存
# save as JSON
json_string = model.to_json()
  • 这样只是保存模型的结构,而不包含其权重或配置信息
model_from_json 保存
# load from JSON
from keras.models import model_from_json

model = model_from_json(json_string)

3. 模型权重

仅保存模型参数
model.save_weights('my_model_weights.h5')
读取
model.load_weights('my_model_weights.h5')

如果只想给某几层赋予权重,可以设置 by_name=True

"""
假如原模型为:
    model = Sequential()
    model.add(Dense(2, input_dim=3, name="dense_1"))
    model.add(Dense(3, name="dense_2"))
    ...
    model.save_weights(fname)
"""
# new model
model = Sequential()
model.add(Dense(2, input_dim=3, name="dense_1"))  # will be loaded
model.add(Dense(10, name="new_dense"))  # will not be loaded

# load weights from first model; will only affect the first layer, dense_1.
model.load_weights(fname, by_name=True)

五、如何可视化模型

  有时候我们定义为一个网络模型,会希望看看它每一个部分的结构(shape)以及模块之间的连接情况,即我们需要模型可视化。这里提供三种方法。

model.summary()

使用model.summary()可以看到每一层的名字、参数个数。

print model.summary()
Keras的plot方法

使用keras.utils.visualize_util.plot可以画出网络结构图。

from keras.utils.visualize_util import plot
from IPython.display import Image

plot(model, to_file="model.png", show_shapes=True) # remember to set show_shapes
Image('model.png')

要使用plot,需要依赖库 pydot 以及 graphviz 。

Keras结合Tensorboard

  只要在训练阶段,在model.fit中加入callbacks=[TensorBoard(log_dir='./tmp/log')]字段,就能把训练记录保存到log文件。

# etc...
model.fit(x_train, x_train,
                epochs=50,
                batch_size=128,
                shuffle=True,
                validation_data=(x_test, x_test),
                callbacks=[TensorBoard(log_dir='./tmp/log')])

  在终端Terminal中输入tensorboard --logdir=./temp/log,会得到一个ip和端口号,复制粘贴到浏览器中就能使用TensorBoard暗中观察。

$ tensorboard --logdir=./temp/log

六、如何准备训练数据

  训练模型的时候,我们可以选择两种方式来生成我们的训练数据,一种是一次性读入全部数据,调用model.fit训练,另一种是定义一个数据生成器(generator),然后调用model.fit_generator函数来训练。
  第一种方法的好处在于GPU利用率高,一次性读入,减少IO操作时间,缺点在于内存占用过多,毕竟要一次性全部读入,当然如果你有256G内存的工作站当我没说。当然也有一些说法任务GPU使用率高并不好。
  第二种方法的好处在于不需要生成大量数据,内存占用相对较少,例如generator每次只生成一个batch的数据,则内存占用量最多为一个batch,并且你可以无限生成数据,缺点是训练过程中需要利用 CPU 生成数据,所以每训练一个batch,GPU会有一段时间什么都不做(等待CPU生成数据),降低效率。

直接输入
model.fit(train_x, train_y)
数据生成器
从Numpy中生成

  从读入内存了的ndarray中生成每个batch的数据。这种方法并不会减少内存消耗,只能减少显存的占用。
  下面这个生成器,接收完整的data和label为输入,每次从中取出一个batch的数据量,很明显,完整的data和label已经占据了相当的内存了,只是显存占用量明显降低了。

# data & label are both numpy ndarray
def gen(data, label, batch_size=32):
    indexes = np.array_split(range(len(data)), len(data) / batch_size)
    i = 0
    while True:
        yield data[indexes[i]], label[indexes[i]]
        i = (i+1) % len(indexes)

# data preparation
train_x = ...
train_y = ...
valid_x = ...
valid_y = ...

然后调用model.fit_generator训练,其函数原型为:

def fit_generator(self, generator, 
                  steps_per_epoch=None, epochs=1, verbose=1, callbacks=None, 
                  validation_data=None, validation_steps=None, 
                  class_weight=None, max_queue_size=10, workers=1, 
                  use_multiprocessing=False, shuffle=True, initial_epoch=0)

以下为几个重要参数的解释:

  • generator : 一个生成器,应该生成一个 (inputs, targets) 元组,每个元组应该包含同样数量的样本。生成器将无限地在数据集上循环。当运行到第 steps_per_epoch 时,记一个 epoch 结束。
  • steps_per_epoch : 一个epoch包含多少个batch,通常应该等于数据集的样本数量除以batch_size。如果未指定,将使用 len(generator) 作为步数。
  • epochs : 与 initial_epoch 一起,参数 epochs 应被理解为 「最终轮数」,不是训练了 epochs 轮,而是到第epochs轮停止训练。
  • validation_data : 同generator,用于验证。
  • validation_steps : 同steps_per_epoch,即一个epoch包含多少个batch,只有在validation_data非空时有意义。
  • workers : 使用的最大进程数量。

实际调用进行训练

# 训练集与验证集的batch_size都取32
model.fit_generator(generator=gen(train_x, train_y, 32), 
                    steps_per_epoch=len(train_y)/32, 
                    validation_data=gen(valid_x, valid_y, 32), 
                    validation_steps=len(valid_y)/32, 
                    verbose=1, callbacks=[earlystoping], workers=16, 
                    )
从文件中读取生成

  比较建议这种方法,生成器每次从已经保存好的数据文件中读取一个batch的数据,这样不仅能无限生成数据,节省显存,还能节省内存。

# 数据处理函数
def processing_line(line):
    line = line.split(" ")
    return [float(s) for s in line[1:]], int(line[0])

# 从文件读取数据的生成器
def generate_arrays_from_file(path, batch_size=32):
    while True:
        with open(path) as f:
            batch_x, batch_y = [], []
            for line in f:
                # 读取每一行并处理
                x, y = processing_line(line)
                batch_x.append(x)
                batch_y.append(y)
                # 当batch_x的大小达到要求的batch_size时清空并输出
                if len(batch_y) == batch_size:
                    yield (batch_x, batch_y)
                    batch_x, batch_y = [], []
# training
model.fit_generator(generate_arrays_from_file('/my_file.txt'),
                    steps_per_epoch=1000, epochs=10)

其他

如何查看Keras版本
import keras
print keras.__version__ # 我当前的版本是 2.1.6
如何更改Keras的Backend

  作为一个高层次的封装库,Keras不会去管底层的操作(类似张量加法、乘法之类的运算),而是基于某种Backend定义的。Keras支持三种Backend:TensorFlowTheanoCNTK,默认情况下使用TensorFlow。输入sudo vim ~/.keras/keras.json,可以看到如下内容,只需要把backend字段改成theano或者cntk即可实现切换。

{
    "image_data_format": "channels_last",
    "epsilon": 1e-07,
    "floatx": "float32",
    "backend": "tensorflow"
}

以上参数详解:

  • image_data_format: String, either “channels_last” or “channels_first”. It specifies which data format convention Keras will follow. (keras.backend.image_data_format() returns it.)
    • For 2D data (e.g. image), “channels_last” assumes (rows, cols, channels) while “channels_first” assumes (channels, rows, cols).
    • For 3D data, “channels_last” assumes (conv_dim1, conv_dim2, conv_dim3, channels) while “channels_first” assumes (channels, conv_dim1, conv_dim2, conv_dim3).
  • epsilon: Float, a numeric fuzzing constant used to avoid dividing by zero in some operations.
  • floatx: String, “float16”, “float32”, or “float64”. Default float precision.
  • backend: String, “tensorflow”, “theano”, or “cntk”.

有关于KerasBackend的更多详细信息可以参考这里


参考资料

Keras文档
Keras文档(中文版)
使用深度学习来破解 captcha 验证码
使用深度学习来破解 captcha 验证码(代码)

Keras:基于Theano和TensorFlow的深度学习库 这就是Keras Keras是一个高层神经网络库,Keras由纯Python编写而成并基Tensorflow或Theano。Keras 为支持快 速实验而生,能够把你的idea迅速转换为结果,如果你有如下需求,请选择Keras: 简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性) 支持CNN和RNN,或二者的结合 支持任意的链接方案(包括多输入和多输出训练) 无缝CPU和GPU切换 Keras适用的Python版本是:Python 2.7-3.5 Keras的设计原则是 模块性:模型可理解为一个独立的序列或图,完全可配置的模块以最少的代价自由组合在一起。具 体而言,网络层、损失函数、优化器、初始化策略、激活函数、正则化方法都是独立的模块,你可 以使用它们来构建自己的模型。 极简主义:每个模块都应该尽量的简洁。每一段代码都应该在初次阅读时都显得直观易懂。没有黑 魔法,因为它将给迭代和创新带来麻烦。 易扩展性:添加新模块超级简单的容易,只需要仿照现有的模块编写新的类或函数即可。创建新模 块的便利性使得Keras更适合于先进的研究工作。 Python协作:Keras没有单独的模型配置文件类型(作为对比,caffe有),模型由python代码描 述,使其更紧凑和更易debug,并提供了扩展的便利性。 Keras从2015年3月开始启动,经过一年多的开发,目前Keras进入了1.0的时代。Keras 1.0依然遵循相 同的设计原则,但之前的版本相比有很大的不同。如果你曾经使用过此前的其他版本Keras。你或许 会关心1.0的新特性。 泛型模型:简单和强大的新模块,用于支持复杂深度学习模型的搭建。 更优秀的性能:现在,Keras模型的编译时间得到缩短。所有的RNN现在都可以用两种方式实现, Keras中文文档 以供用户在不同配置任务和配置环境下取得最大性能。现在,基于Theano的RNN也可以被展开, 以获得大概25%的加速计算。 测量指标:现在,你可以提供一系列的测量指标来在Keras的任何监测点观察模型性能。 更优的用户体验:我们面向使用者重新编写了代码,使得函数API更简单易记,同时提供更有效的 出错信息。 新版本的Keras提供了Lambda层,以实现一些简单的计算任务。 ... 如果你已经基于Keras0.3编写了自己的层,那么在升级后,你需要为自己的代码做以下调整,以 在Keras1.0上继续运行。请参考编写自己的层 关于Keras-cn 本文档是Keras文档的中文版,包括keras.io的全部内容,以及更多的例子、解释和建议,目前,文档 的计划是: 1.x版本:现有keras.io文档的中文翻译,保持官方文档的同步 2.x版本:完善所有【Tips】模块,澄清深度学习中的相关概念和Keras模块的使用方法 3.x版本:增加Keras相关模块的实现原理和部分细节,帮助用户更准确的把握Keras,并添加更多 的示例代码 现在,keras-cn的版本号将简单的跟随最新的keras release版本 由于作者水平和研究方向所限,无法对所有模块都非常精通,因此文档中不可避免的会出现各种错误、 疏漏和不足之处。如果您在使用过程中有任何意见、建议和疑问,欢迎发送邮件 到moyan_work@foxmail.com我取得联系。 您对文档的任何贡献,包括文档的翻译、查缺补漏、概念解释、发现和修改问题、贡献示例程序等,均 会被记录在致谢,十分感谢您对Keras中文文档的贡献! 同时,也欢迎您撰文向本文档投稿,您的稿件被录用后将以单独的页面显示在网站中,您有权在您的网 页下设置赞助二维码,以获取来自网友的小额赞助。 如果你发现本文档缺失了官方文档的部分内容,请积极联系我补充。 本文档相对于原文档有更多的使用指导和概念澄清,请在使用时关注文档中的Tips,特别的,本文档的 额外模块还有: 一些基本概念:位于快速开始模块的一些基本概念简单介绍了使用Keras前需要知道的一些小知 识,新手在使用前应该先阅读本部分的文档。 Keras安装和配置指南,提供了详细的Linux和Windows下Keras的安装和配置步骤。 深度学习Keras:位于导航栏最下方的该模块翻译了来自Keras作者博客keras.io和其他Keras相关 博客的文章,该栏目的文章提供了对深度学习的理解和大量使用Keras的例子,您也可以向这个栏 目投稿。 所有的文章均在醒目位置标志标明来源作者,本文档对该栏目文章的原文不具有任何处 置权。如您仍觉不妥,请联系本人(moyan_work@foxmail.com)删除。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值