2017-11-27

Kerasのバックエンドの使い方

勾配情報を取得したり、特定のレイヤの出力を得たい場合など、色々な場面でKerasプログラムの中でTensorflowレイヤの操作をしたいことが出てくる。そんな時に使うのがバックエンド。
多くはドキュメント見れば良いが、良く分からないAPI(functionとか)もあるのでメモを残しておく。

インポート

バックエンドを使う場合は下記をインポートする。

from keras import backend as K

基本

variableやplaceholderなどを定義できる。値を見る場合はget_value、足し算や引き算なども可能。

x = K.variable(np.random.rand(2,2))
y = K.variable(np.random.rand(2,2))
K.get_value(x)
K.get_value(y)
K.get_value(x+y)

function(inputs, outputs)

これがはじめ良くわからなかった。
まずは引数をしっかり理解する。inputsはplaceholderのリスト、outputsはテンソルのリスト。どっちもリストな点に注意。
functionはプレスホルダーinputsを入力として、outputsを計算する関数を返してくれる。outputsは当然何かしらのテンソル計算。もし、引数を取らない場合は空リストを与えれば良い。
呼び出す(call)する場合は、何かプレースホルダに与えて呼び出すだけ。ただし、ここで注意！！Keras（というかTF）のInputsは0次元目がサンプルサイズになっているようなので、バッチデータじゃなくて単一のデータを渡す場合には、expand_dimsとかで次元を増やすことが必要。

in1 = Input(shape=(2, 2))
x = K.variable(np.random.rand(2,2))
y = K.variable(np.random.rand(2,2))
out1 = in1 + x
out2 = in1 + y

# Define function
fn = K.function([in1], [out1, out2])

# Call the defined function
o1, o2 = fn([np.expand_dims(np.random.rand(2, 2), 0)])

2017-10-18

Kerasの処理テンプレート

統計・機械学習 python

メモ

モデルのcompile時に与えるmetricsは、学習の各エポック毎に計算する学習の指標を表すもの。損失関数は何もやらなくても計算しているので、損失関数以外を指定する。自分で関数を作っても良いが、大概は用意されている。良くあるサンプルではaccuracyが指定されているが、これは分類問題では損失関数がクロスエントロピーなのに対して、実際の正解率を計算してくるもの。
kerasの終了時に、「tensorflowがNoneはdelは無い」みたいなエラーを出すときは、バックエンドのセッションのクリアをちゃんと呼ぶようにする。tfが別スレッドで動いていて、tfが終了する前に親プロセスのkerasが終了してしまう、みたいな状況なのかな？
scikit-learnとの融合で複雑な交差検証は出来るけれど、シンプルにやるだけならfitにvalidation_splitを指定する。
fitの返り値はエポック毎のlossとmetricsの値を保存している。返り値をretとすると、ret.history['loss']などでアクセスできる。validation_splitを指定していればret.history['val_loss']も保存されている。
結果を保存するとき、モデルはmodel.saveで良い。モデルをjsonで、重みは別途model.save_weightsで保存する例がドキュメントに書いてあるけれど、何でだろう？モデルの構成だけ保存したい(重みは大きいから不要)とかいう状況あるのかな？。また、fitの返り値はpythonオブジェクトなのでpickleで保存する。(その際、返り値自体を保存しようとするとなぜかエラーが起きる。なんでだろう？。とりあえず、historyだけなら保存出来た。)

import numpy
import matplotlib.pyplot as plt
import pickle
import keras.backend as K
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping

def gen_model():
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(6, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam',
                  metrics=['accuracy'])
    return model

def plot_results(history):
    plt.title('learning history')
    plt.xlabel('epochs')
    plt.ylabel('loss or accuracy')
    plt.plot(history.history['loss'], label='loss')
    plt.plot(history.history['val_loss'], label='val_loss')
    plt.grid()
    plt.legend()

# Data preparetion
dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]

# Model generation
model = gen_model()
model.summary()

# Model fitting with validation
early_stopping = EarlyStopping(patience=3)
history = model.fit(X, Y, batch_size=16, epochs=100, callbacks=[early_stopping],validation_split=0.1)

# Save results
model.save("model.hd5")
with open('learning_history.pkl', 'wb') as f:
    pickle.dump(history.history, f)

# plot loss and validation loss
plot_results(history)

K.clear_session()

2017-10-18

Kerasで中間ノードの出力を確認する。

統計・機械学習 python

kerasのドキュメントのFAQに書かれているので、それ通りにやれば良い。一応、良くあるボストンの家の価格のデータの例を記載。

そう言えば、kerasが終了時にsessionのdelに失敗する場合がある。ちゃんと、backendのclear_session()を呼ぶ。

import numpy
import pandas
from keras.models import Sequential, Model
from keras.layers import Dense, Input
from keras.callbacks import EarlyStopping
import keras.backend as K

# Prepare dataset
df = pandas.read_csv("boston_house_price.csv", delim_whitespace=True, header=None)
X = df.values[:, 0:13]
Y = df.values[:, 13]

def gen_model():
    inputs = Input(shape=(13,), name='input_layer')
    x = Dense(13, activation='relu', name='1st_layer')(inputs)
    output = Dense(1, name='output_layer')(x)
    model = Model(inputs=inputs, outputs=output)
    model.compile(loss='mean_squared_error', optimizer='adam')
    return model

model = gen_model()
model.summary

early_stopping = EarlyStopping(patience=5, verbose=1)
model.fit(X, Y, batch_size=16, epochs=100, callbacks=[early_stopping], validation_split=0.1)

# Intermediate Layer output
intermediate_model = Model(inputs=model.input, outputs=model.get_layer('1st_layer').output)
intermediate_output = intermediate_model.predict(X)
print(intermediate_output)

K.clear_session()

2017-10-17

Keras with scikit-learnのメモ

統計・機械学習 python

KerasはTensorflow/Theanoを使って良くあるDeep Learning アルゴリズムのパタンを効率的に実装するライブラリだけど、機械学習と言えばデータ前処理やCross-Validation,パラメタ探索とか他にも共通してやることがたくさんある。そんな機械学習共通のライブラリと言えばscikit-learnでしょ、ということで、Kerasはscikit-learnへのラッパーも提供している。

使い方の概要

sklearnのCVやグリッドサーチなどは、分類器(Classifier)、回帰器(Regressor)ともにEstimatorクラスのオブジェクトを受け取ることを想定している。
kerasはそれらのEstimatorを返すラッパーを提供していて、それがKerasClassifierとKerasRegressor。
KerasClassifer(Regressor)はモデルを返す関数を引数として与える必要がある。それを何か(gen_modelなど)作って渡すだけで、後はscikit-learnのEstimatorと同じように扱ってくれる。
KerassRegressorに渡すbuild_fnが引数を取る場合、build_fnの後ろにそのままキーワード引数として与えてあげれば良い。epochsとかはデフォルトなのかな？(例 KerasRegressor(build_fn=gen_model, arg1=xxx, arg2=yyy, epochs=...)

kFold-CVをする場合

# データセットはpima_indians_diabets
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score

# Data preparetion
dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]


def gen_model():
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(6, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam',
                  metrics=['accuracy'])
    return model


# KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator.
model = KerasClassifier(build_fn=gen_model, epochs=10, batch_size=10)

# scikit_learn's cross-validation flow
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=1)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

Grid-Searchする場合

同様にGSも簡単にやってくれる。活性化関数、初期化方式、バッチサイズ, エポック数を探索する場合の例。

import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import GridSearchCV


dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]


def create_model(optimizer='rmsprop', init='glorot_uniform'):
    model = Sequential()
    model.add(Dense(12, input_dim=8, kernel_initializer=init, activation='relu'))
    model.add(Dense(8, kernel_initializer=init, activation='relu'))
    model.add(Dense(1, kernel_initializer=init, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer=optimizer,
                  metrics=['accuracy'])
    return model


# KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator.
model = KerasClassifier(build_fn=create_model)

# Grid Search parameters (epochs, batch size and optimizer)
optimizers = ['rmsprop', 'adam']
init = ['glorot_uniform', 'normal', 'uniform']
epochs = [10, 20, 30]
batches = [5, 10, 20]
param_grid = dict(optimizer=optimizers, epochs=epochs, batch_size=batches,
                  init=init)
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid_result = grid.fit(X, Y)

# summarize results
print("Best parameter set: {}".format(grid_result.best_params_))

2017-09-26

メタプログラミング in python

python

PythonでもRubyみたいなメタプログラミング(method_missing, sendとか)が色々出来るみたい。ちょっとずつ調べて書いていく。

モンキーパッチ(オープンクラスとは違う)

動的にメソッド定義できる(なんと！！)。オープンクラスというよりはクラスのattrに直接代入という感じ。
でも、組み込み型にメソッド追加はできないし、Rubyのクラスを再オープンというものではないみたい。
注意点として、追加するメソッドの第一引数にselfがあることを忘れないこと。
ウェブを見ると、パッチを当てたことがわかるように、元のメソッドに戻せるようにしておいて、withと一緒に使って影響を局所化するやり方も紹介されている。

# Monckeyクラスに後からメソッドfを定義する
class Monckey():
    pass

def f(self):
    print("I'm a monckey !")

mon = Monckey()
Monckey.f = f

2017-09-24

SOFT SKILLSの自分メモ

読書

学習すること

ソフトウェアエンジニアは絶えず勉強が必要で(SEに限らずだけれど)、効率的な勉強法が重要となる。
効率よい学習とは、好奇心を持って行動を起こすこと。そして人に教えると知識が補強される。
だから、まず最速で試すポイントまで立つことを意識する。そして、それをブログなどで自分の言葉でまとめる。
LDLT方式(Learn-Do-Learn-Teach)を意識する。
本は最初から順番に読むんでも何も出ない。
具体的には次のステップを踏む(一部省略)。
1. 全体像をつかむ：予め把握しておくことで、そもそも挫折しないか、適切なテーマかを判断しておく。
2. スコープを決める：具体的に学習可能な問題に限定する。一度に学べることは一つ、欲張らない。
3. 成功の基準を決める
4. 使い始められるようにするための学習(Learn 1st)
5. 遊ぶ/使う(Do)：遊びながら、使いながら疑問点をリストアップ(好奇心)
6. 疑問点を学ぶ
7. 教える(自分の言葉で纏める)：人に説明したり、ブログを書いたり。

生産性について

引用されているスティーブン・キングの言葉が印象的(とにかくやれ、って感じの言葉)
集中こそすべて。集中はスイッチみたいに入らない。やりだすとじわじわ入る。だから、最初の何分か我慢してとにかくやるしかない。
割り込みを許さない。バッチ処理を活用する(メールの返信とか)。
マルチタスクは本当に並列化するものにだけ適用する。じゃないと実際はコンテキストスイッチが入ってタスク切り替えている。
ポモドーロは予め必要なポモドーロ数の見積もりと、実際にこなしたポモドーロ数をトラックすることが重要。自分の生産性の可視化。
具体的な行動
- ４半期の目標はある程度固まったもの。
- 月次の計画は正確に立たない。あくまでも何日(何時間)使えるのか？を可視化する。
- 週次計画はある程度正確に。ルーチンも入れる。各タスクは何ポモドーロか？を見積もる。
- 日次は2時間以内(4ポモドーロの１セット)に終わるタスクの実行計画を作ることが肝。

2017-09-24

Pythonの開発環境 on Emacs

python

前提

Caskの使用をやめたので修正@2018/06/02
最低限として文法チェック、補完、REPLが使えれば良い。
ipython notebook(Jupyter)は使わない。 (notebookはやっぱり慣れないのと、別にmarkdownは別ファイルに書けば良いし、図もEmacs内に埋め込み表示しなくてREPLでやれば良いように思う。)
virtualenvを考慮してLintして欲しいのでelpyを使う。注意はpython3用にしておくこと、elpy自体だけで補完、lintする訳じゃないようなので,補間にはjedi, lintにはflycheck, flake8を入れる。
標準Yasnippetでもかなり使えるので、Yasnippetは絶対に使うべし。

補間のメモ

flycheck(flymake)はLintツールをオンザフライで実行しているだけでLintツール自体は別に必要。flake8とかpylintがそれにあたる。

設定

まず各種インストール

# aptで入れるもの
$ sudo apt-get python3-pip ipython3 python3-tk virtualenv virtualenvwrapper
$ sudo ln -s /usr/bin/ipython3 /usr/bin/ipython

# pipで入れるもの
$ pip3 install rope jedi autopep8 flake8

# Emacsで入れるもの
$ (in Emacs)  M-x package-install RET jedi RET
$ (in Emacs)  M-x jedi:install-server RET

Emacsパッケージとして入れるものは，elpy, company(補完)，company-jedi, flycheck(On-the-fly check)。
Python用の.emacs設定を公開してくれているページを参考に.emacsを編集してEmacsを起動すると自動でインストールしてくれる(use-packageは別途入れておく)。

;; Python
;; Standard Jedi.el setting
(add-hook 'python-mode-hook 'jedi:setup)
(setq jedi:complete-on-dot t)

;; Use Company for auto-completion interface.
(defun my/python-mode-hook ()
  (add-to-list 'company-backends 'company-jedi))

(use-package company-jedi
  :ensure t
  :init
  (add-hook 'python-mode-hook 'my/python-mode-hook))

(use-package flycheck
  :ensure t
  :init
  (global-flycheck-mode t))

(use-package elpy
  :ensure t
  :defer 2
  :config
  (progn
    ;; Use Flycheck instead of Flymake
    (when (require 'flycheck nil t)
      (remove-hook 'elpy-modules 'elpy-module-flymake)
      (remove-hook 'elpy-modules 'elpy-module-yasnippet)
      (remove-hook 'elpy-mode-hook 'elpy-module-highlight-indentation)
      (add-hook 'elpy-mode-hook 'flycheck-mode))
    (elpy-enable)
    ;; jedi is great
    (setq elpy-rpc-backend "jedi")))

FLAKE8の特定の警告を無視する

PEP8の警告は良いけど、一行80文字制限は逆に見難くなるので警告を止めたい。
そんな場合に、~/.flake8ファイルに下記の様に書くと特定の警告を無視したり、一行の最大文字数などを設定できる。

[flake8]
ignore = E226,E302,E41
max-line-length = 160
exclude = tests/*
max-complexity = 10

最低限の使い方

# MISC
M-x elpy-config : 設定の確認

# REPL
C-c C-z : REPLバッファに移動
C-c C-c : バッファをREPLに送信
C-M-x   : 現在のトップレベルのクラスまたは関数を送信
C-ENTER : カレントラインをREPLに送信

;移動
M-. : 定義にジャンプ
M-* : ジャンプ元に戻る
M-, : M-*のジャンプ前に戻る
C-x 4 M-. : 別ウィンドウ開いて定義にジャンプ