Kerasの処理テンプレート

メモ

  • モデルのcompile時に与えるmetricsは、学習の各エポック毎に計算する学習の指標を表すもの。損失関数は何もやらなくても計算しているので、損失関数以外を指定する。自分で関数を作っても良いが、大概は用意されている。良くあるサンプルではaccuracyが指定されているが、これは分類問題では損失関数がクロスエントロピーなのに対して、実際の正解率を計算してくるもの。
  • kerasの終了時に、「tensorflowがNoneはdelは無い」みたいなエラーを出すときは、バックエンドのセッションのクリアをちゃんと呼ぶようにする。tfが別スレッドで動いていて、tfが終了する前に親プロセスのkerasが終了してしまう、みたいな状況なのかな?
  • scikit-learnとの融合で複雑な交差検証は出来るけれど、シンプルにやるだけならfitにvalidation_splitを指定する。
  • fitの返り値はエポック毎のlossとmetricsの値を保存している。返り値をretとすると、ret.history['loss']などでアクセスできる。validation_splitを指定していればret.history['val_loss']も保存されている。
  • 結果を保存するとき、モデルはmodel.saveで良い。モデルをjsonで、重みは別途model.save_weightsで保存する例がドキュメントに書いてあるけれど、何でだろう?モデルの構成だけ保存したい(重みは大きいから不要)とかいう状況あるのかな?。また、fitの返り値はpythonオブジェクトなのでpickleで保存する。(その際、返り値自体を保存しようとするとなぜかエラーが起きる。なんでだろう?。とりあえず、historyだけなら保存出来た。)
import numpy
import matplotlib.pyplot as plt
import pickle
import keras.backend as K
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping

def gen_model():
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(6, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam',
                  metrics=['accuracy'])
    return model

def plot_results(history):
    plt.title('learning history')
    plt.xlabel('epochs')
    plt.ylabel('loss or accuracy')
    plt.plot(history.history['loss'], label='loss')
    plt.plot(history.history['val_loss'], label='val_loss')
    plt.grid()
    plt.legend()

# Data preparetion
dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]

# Model generation
model = gen_model()
model.summary()

# Model fitting with validation
early_stopping = EarlyStopping(patience=3)
history = model.fit(X, Y, batch_size=16, epochs=100, callbacks=[early_stopping],validation_split=0.1)

# Save results
model.save("model.hd5")
with open('learning_history.pkl', 'wb') as f:
    pickle.dump(history.history, f)

# plot loss and validation loss
plot_results(history)

K.clear_session()

Kerasで中間ノードの出力を確認する。

kerasのドキュメントのFAQに書かれているので、それ通りにやれば良い。一応、良くあるボストンの家の価格のデータの例を記載。

  • そう言えば、kerasが終了時にsessionのdelに失敗する場合がある。ちゃんと、backendのclear_session()を呼ぶ。
import numpy
import pandas
from keras.models import Sequential, Model
from keras.layers import Dense, Input
from keras.callbacks import EarlyStopping
import keras.backend as K

# Prepare dataset
df = pandas.read_csv("boston_house_price.csv", delim_whitespace=True, header=None)
X = df.values[:, 0:13]
Y = df.values[:, 13]

def gen_model():
    inputs = Input(shape=(13,), name='input_layer')
    x = Dense(13, activation='relu', name='1st_layer')(inputs)
    output = Dense(1, name='output_layer')(x)
    model = Model(inputs=inputs, outputs=output)
    model.compile(loss='mean_squared_error', optimizer='adam')
    return model

model = gen_model()
model.summary

early_stopping = EarlyStopping(patience=5, verbose=1)
model.fit(X, Y, batch_size=16, epochs=100, callbacks=[early_stopping], validation_split=0.1)

# Intermediate Layer output
intermediate_model = Model(inputs=model.input, outputs=model.get_layer('1st_layer').output)
intermediate_output = intermediate_model.predict(X)
print(intermediate_output)

K.clear_session()

Keras with scikit-learnのメモ

KerasはTensorflow/Theanoを使って良くあるDeep Learningアルゴリズムのパタンを効率的に実装するライブラリだけど、機械学習と言えばデータ前処理やCross-Validation,パラメタ探索とか他にも共通してやることがたくさんある。そんな機械学習共通のライブラリと言えばscikit-learnでしょ、ということで、Kerasはscikit-learnへのラッパーも提供している。

使い方の概要

  • sklearnのCVやグリッドサーチなどは、分類器(Classifier)、回帰器(Regressor)ともにEstimatorクラスのオブジェクトを受け取ることを想定している。
  • kerasはそれらのEstimatorを返すラッパーを提供していて、それがKerasClassifierとKerasRegressor。
  • KerasClassifer(Regressor)はモデルを返す関数を引数として与える必要がある。それを何か(gen_modelなど)作って渡すだけで、後はscikit-learnのEstimatorと同じように扱ってくれる。
  • KerassRegressorに渡すbuild_fnが引数を取る場合、build_fnの後ろにそのままキーワード引数として与えてあげれば良い。epochsとかはデフォルトなのかな?(例 KerasRegressor(build_fn=gen_model, arg1=xxx, arg2=yyy, epochs=...)

kFold-CVをする場合

# データセットはpima_indians_diabets
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score

# Data preparetion
dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]


def gen_model():
    model = Sequential()
    model.add(Dense(12, input_dim=8, activation='relu'))
    model.add(Dense(6, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer='adam',
                  metrics=['accuracy'])
    return model


# KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator.
model = KerasClassifier(build_fn=gen_model, epochs=10, batch_size=10)

# scikit_learn's cross-validation flow
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=1)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

Grid-Searchする場合

  • 同様にGSも簡単にやってくれる。活性化関数、初期化方式、バッチサイズ, エポック数を探索する場合の例。
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import GridSearchCV


dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",")
X = dataset[:, 0:8]
Y = dataset[:, 8]


def create_model(optimizer='rmsprop', init='glorot_uniform'):
    model = Sequential()
    model.add(Dense(12, input_dim=8, kernel_initializer=init, activation='relu'))
    model.add(Dense(8, kernel_initializer=init, activation='relu'))
    model.add(Dense(1, kernel_initializer=init, activation='sigmoid'))
    model.compile(loss='binary_crossentropy', optimizer=optimizer,
                  metrics=['accuracy'])
    return model


# KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator.
model = KerasClassifier(build_fn=create_model)

# Grid Search parameters (epochs, batch size and optimizer)
optimizers = ['rmsprop', 'adam']
init = ['glorot_uniform', 'normal', 'uniform']
epochs = [10, 20, 30]
batches = [5, 10, 20]
param_grid = dict(optimizer=optimizers, epochs=epochs, batch_size=batches,
                  init=init)
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid_result = grid.fit(X, Y)

# summarize results
print("Best parameter set: {}".format(grid_result.best_params_))

メタプログラミング in python

PythonでもRubyみたいなメタプログラミング(method_missing, sendとか)が色々出来るみたい。 ちょっとずつ調べて書いていく。

モンキーパッチ(オープンクラスとは違う)

  • 動的にメソッド定義できる(なんと!!)。オープンクラスというよりはクラスのattrに直接代入という感じ。
  • でも、組み込み型にメソッド追加はできないし、Rubyのクラスを再オープンというものではないみたい。
  • 注意点として、追加するメソッドの第一引数にselfがあることを忘れないこと。
  • ウェブを見ると、パッチを当てたことがわかるように、元のメソッドに戻せるようにしておいて、withと一緒に使って影響を局所化するやり方も紹介されている。
# Monckeyクラスに後からメソッドfを定義する
class Monckey():
    pass

def f(self):
    print("I'm a monckey !")

mon = Monckey()
Monckey.f = f

SOFT SKILLSの自分メモ

学習すること

  • ソフトウェアエンジニアは絶えず勉強が必要で(SEに限らずだけれど)、効率的な勉強法が重要となる。
  • 効率よい学習とは、好奇心を持って行動を起こすこと。そして人に教えると知識が補強される。
  • だから、まず最速で試すポイントまで立つことを意識する。そして、それをブログなどで自分の言葉でまとめる。
  • LDLT方式(Learn-Do-Learn-Teach)を意識する。
  • 本は最初から順番に読むんでも何も出ない。
  • 具体的には次のステップを踏む(一部省略)。
    1. 全体像をつかむ:予め把握しておくことで、そもそも挫折しないか、適切なテーマかを判断しておく。
    2. スコープを決める:具体的に学習可能な問題に限定する。一度に学べることは一つ、欲張らない。
    3. 成功の基準を決める
    4. 使い始められるようにするための学習(Learn 1st)
    5. 遊ぶ/使う(Do):遊びながら、使いながら疑問点をリストアップ(好奇心)
    6. 疑問点を学ぶ
    7. 教える(自分の言葉で纏める):人に説明したり、ブログを書いたり。

生産性について

  • 引用されているスティーブン・キングの言葉が印象的(とにかくやれ、って感じの言葉)
  • 集中こそすべて。集中はスイッチみたいに入らない。やりだすとじわじわ入る。だから、最初の何分か我慢してとにかくやるしかない。
  • 割り込みを許さない。バッチ処理を活用する(メールの返信とか)。
  • マルチタスクは本当に並列化するものにだけ適用する。じゃないと実際はコンテキストスイッチが入ってタスク切り替えている。
  • ポモドーロは予め必要なポモドーロ数の見積もりと、実際にこなしたポモドーロ数をトラックすることが重要。自分の生産性の可視化。
  • 具体的な行動
    • 4半期の目標はある程度固まったもの。
    • 月次の計画は正確に立たない。あくまでも何日(何時間)使えるのか?を可視化する。
    • 週次計画はある程度正確に。ルーチンも入れる。各タスクは何ポモドーロか?を見積もる。
    • 日次は2時間以内(4ポモドーロの1セット)に終わるタスクの実行計画を作ることが肝。

   

Pythonの開発環境 on Emacs

前提

  • 最低限として文法チェック、補完、REPLが使えれば良い。
  • ipython notebook(Jupyter)は使わない。 (notebookはやっぱり慣れないのと、別にmarkdownは別ファイルに書けば良いし、図もEmacs内に埋め込み表示しなくてREPLでやれば良いように思う。)
  • virtualenvを考慮してLintして欲しいのでelpyを使う。注意はpython3用にしておくこと、elpy自体だけで補完、lintする訳じゃないようなのでそれは結局入れる。

設定

  • まず各種インストール
# aptで入れるもの
$ sudo apt-get python3-pip ipython3 python3-tk
$ sudo ln -s /usr/bin/ipython3 /usr/bin/ipython

# Caskで入れるもの(Cask自体も)
$ curl -fsSkL https://raw.github.com/cask/cask/master/go | python
$ cd .emacs.d
$ cask init
$ export PATH=/home/nobunaga/.cask/bin:$PATH # add it in .bashrc
$ vim Cask # elpy, company, campany-jedi, flycheck
$ cask install
$ pip3 install rope jedi autopep8 flake8
  • 次に、init.elに下記を追加。
;; init.el
(elpy-enable)
(elpy-use-ipython)
(setq elpy-rpc-python-command "python3")
(setq elpy-rpc-backend "jedi")
(when (require 'flycheck nil t)
  (setq elpy-modules (delq 'elpy-module-flymake elpy-modules))
  (add-hook 'elpy-mode-hook 'flycheck-mode))

最低限の使い方

# MISC
M-x elpy-config : 設定の確認

# REPL
C-c C-z : REPLバッファに移動
C-c C-c : バッファをREPLに送信
C-M-x   : 現在のトップレベルのクラスまたは関数を送信
C-ENTER : カレントラインをREPLに送信

;移動
M-. : 定義にジャンプ
M-* : ジャンプ元に戻る
M-, : M-*のジャンプ前に戻る
C-x 4 M-. : 別ウィンドウ開いて定義にジャンプ

Cmakeのメモ

 使い方

  • CMakeList.txtにMakefileの生成ルールを記述.
  • CMakeLists.txtを用意したディレクトリを指定してcmakeを実行するとMakefileが生成される.後は通常通りにmakeでコンパイル
  • ただし,cmakeするとCMakeCache.txtやら色々できてディレクトリが汚れるのでソース外ビルドでやるのが良い.やりかたは,buildディレクトリなりを一旦作って,そのディレクトリに移動して"cmake ..“すれば,buildディレクトリにビルドセットアップ一式が生成される.そこでmakeする.相対パスを使っている場合は注意する.

CMakeList.txtの書き方(基本)

# cmakeのバージョン(必須)
cmake_minimum_required(VERSION 2.8) 

# コンパイラ指定
set(CMAKE_CXX_COMPILER /usr/bin/clang++ )

# コンパイルオプション
set(CMAKE_CXX_FLAGS "-Wall")

# -I : include pathを順に追加
include_directories(/usr/share/path1)
include_directories(/usr/share/path2)

# -D : 定義を追加
add_definitions(-DDEBUG)

# -L : ライブラリ検索パスを追加
link_directories(/usr/share/lib)

# 出力する実行可能形式と,それが依存するソースファイル.(ヘッダは自動解析)
add_executable(Main main.cpp src1.cpp src2)       

# -l : リンクライブラリ (add_executableよりも後ろに書く) -lm -lglut を指定する
target_link_libraries(Main glut m)

複数のディレクトリを一括コンパイル

- root_dir
 - CMakeList.txt   # add_subdirectory(hoge), add_subdirectory(foo)を記述しておく.
 - hoge
   - CMakeList.txt # hoge.cppをコンパイルする記述をしておく.
   - hoge.cpp
 - foo
   - CMakeList.txt # foo.cppをコンパイルする記述をしておく.
   - foo.cpp

cmakeのバージョン

cmake_minimum_required(VERSION 2.8)

find_package(GLUT) find_package(OpenGL)

set(CMAKE_CXX_FLAGS “-g -Wall”) add_executable(Main main_openGL.cpp) target_link_libraries(Main ${GLUT_LIBRARY} ${OPENGL_LIBRARY} m) ||<

特定のアプリ(OpenGL, OpenCV, Qt)などはcmake側で予め用意されている. 用意されているアプリは/usr/share/cmake/Module/Find.cmakeにある.