Keras with scikit-learnのメモ
KerasはTensorflow/Theanoを使って良くあるDeep Learningアルゴリズムのパタンを効率的に実装するライブラリだけど、機械学習と言えばデータ前処理やCross-Validation,パラメタ探索とか他にも共通してやることがたくさんある。そんな機械学習共通のライブラリと言えばscikit-learnでしょ、ということで、Kerasはscikit-learnへのラッパーも提供している。
使い方の概要
- sklearnのCVやグリッドサーチなどは、分類器(Classifier)、回帰器(Regressor)ともにEstimatorクラスのオブジェクトを受け取ることを想定している。
- kerasはそれらのEstimatorを返すラッパーを提供していて、それがKerasClassifierとKerasRegressor。
- KerasClassifer(Regressor)はモデルを返す関数を引数として与える必要がある。それを何か(gen_modelなど)作って渡すだけで、後はscikit-learnのEstimatorと同じように扱ってくれる。
- KerassRegressorに渡すbuild_fnが引数を取る場合、build_fnの後ろにそのままキーワード引数として与えてあげれば良い。epochsとかはデフォルトなのかな?(例 KerasRegressor(build_fn=gen_model, arg1=xxx, arg2=yyy, epochs=...)
kFold-CVをする場合
# データセットはpima_indians_diabets import numpy from keras.models import Sequential from keras.layers import Dense from keras.wrappers.scikit_learn import KerasClassifier from sklearn.model_selection import StratifiedKFold from sklearn.model_selection import cross_val_score # Data preparetion dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",") X = dataset[:, 0:8] Y = dataset[:, 8] def gen_model(): model = Sequential() model.add(Dense(12, input_dim=8, activation='relu')) model.add(Dense(6, activation='relu')) model.add(Dense(1, activation='sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) return model # KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator. model = KerasClassifier(build_fn=gen_model, epochs=10, batch_size=10) # scikit_learn's cross-validation flow kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=1) results = cross_val_score(model, X, Y, cv=kfold) print(results.mean())
Grid-Searchする場合
- 同様にGSも簡単にやってくれる。活性化関数、初期化方式、バッチサイズ, エポック数を探索する場合の例。
import numpy from keras.models import Sequential from keras.layers import Dense from keras.wrappers.scikit_learn import KerasClassifier from sklearn.model_selection import GridSearchCV dataset = numpy.loadtxt("pima_indians_diabetes.csv", delimiter=",") X = dataset[:, 0:8] Y = dataset[:, 8] def create_model(optimizer='rmsprop', init='glorot_uniform'): model = Sequential() model.add(Dense(12, input_dim=8, kernel_initializer=init, activation='relu')) model.add(Dense(8, kernel_initializer=init, activation='relu')) model.add(Dense(1, kernel_initializer=init, activation='sigmoid')) model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=['accuracy']) return model # KerasClassifier/KerasRegressor can be used as same as scikit_learn estimator. model = KerasClassifier(build_fn=create_model) # Grid Search parameters (epochs, batch size and optimizer) optimizers = ['rmsprop', 'adam'] init = ['glorot_uniform', 'normal', 'uniform'] epochs = [10, 20, 30] batches = [5, 10, 20] param_grid = dict(optimizer=optimizers, epochs=epochs, batch_size=batches, init=init) grid = GridSearchCV(estimator=model, param_grid=param_grid) grid_result = grid.fit(X, Y) # summarize results print("Best parameter set: {}".format(grid_result.best_params_))
メタプログラミング in python
PythonでもRubyみたいなメタプログラミング(method_missing, sendとか)が色々出来るみたい。 ちょっとずつ調べて書いていく。
モンキーパッチ(オープンクラスとは違う)
- 動的にメソッド定義できる(なんと!!)。オープンクラスというよりはクラスのattrに直接代入という感じ。
- でも、組み込み型にメソッド追加はできないし、Rubyのクラスを再オープンというものではないみたい。
- 注意点として、追加するメソッドの第一引数にselfがあることを忘れないこと。
- ウェブを見ると、パッチを当てたことがわかるように、元のメソッドに戻せるようにしておいて、withと一緒に使って影響を局所化するやり方も紹介されている。
# Monckeyクラスに後からメソッドfを定義する class Monckey(): pass def f(self): print("I'm a monckey !") mon = Monckey() Monckey.f = f
SOFT SKILLSの自分メモ
学習すること
- ソフトウェアエンジニアは絶えず勉強が必要で(SEに限らずだけれど)、効率的な勉強法が重要となる。
- 効率よい学習とは、好奇心を持って行動を起こすこと。そして人に教えると知識が補強される。
- だから、まず最速で試すポイントまで立つことを意識する。そして、それをブログなどで自分の言葉でまとめる。
- LDLT方式(Learn-Do-Learn-Teach)を意識する。
- 本は最初から順番に読むんでも何も出ない。
- 具体的には次のステップを踏む(一部省略)。
- 全体像をつかむ:予め把握しておくことで、そもそも挫折しないか、適切なテーマかを判断しておく。
- スコープを決める:具体的に学習可能な問題に限定する。一度に学べることは一つ、欲張らない。
- 成功の基準を決める
- 使い始められるようにするための学習(Learn 1st)
- 遊ぶ/使う(Do):遊びながら、使いながら疑問点をリストアップ(好奇心)
- 疑問点を学ぶ
- 教える(自分の言葉で纏める):人に説明したり、ブログを書いたり。
生産性について
- 引用されているスティーブン・キングの言葉が印象的(とにかくやれ、って感じの言葉)
- 集中こそすべて。集中はスイッチみたいに入らない。やりだすとじわじわ入る。だから、最初の何分か我慢してとにかくやるしかない。
- 割り込みを許さない。バッチ処理を活用する(メールの返信とか)。
- マルチタスクは本当に並列化するものにだけ適用する。じゃないと実際はコンテキストスイッチが入ってタスク切り替えている。
- ポモドーロは予め必要なポモドーロ数の見積もりと、実際にこなしたポモドーロ数をトラックすることが重要。自分の生産性の可視化。
- 具体的な行動
- 4半期の目標はある程度固まったもの。
- 月次の計画は正確に立たない。あくまでも何日(何時間)使えるのか?を可視化する。
- 週次計画はある程度正確に。ルーチンも入れる。各タスクは何ポモドーロか?を見積もる。
- 日次は2時間以内(4ポモドーロの1セット)に終わるタスクの実行計画を作ることが肝。
Pythonの開発環境 on Emacs
前提
- Caskの使用をやめたので修正@2018/06/02
- 最低限として文法チェック、補完、REPLが使えれば良い。
- ipython notebook(Jupyter)は使わない。 (notebookはやっぱり慣れないのと、別にmarkdownは別ファイルに書けば良いし、図もEmacs内に埋め込み表示しなくてREPLでやれば良いように思う。)
- virtualenvを考慮してLintして欲しいのでelpyを使う。注意はpython3用にしておくこと、elpy自体だけで補完、lintする訳じゃないようなので,補間にはjedi, lintにはflycheck, flake8を入れる。
- 標準Yasnippetでもかなり使えるので、Yasnippetは絶対に使うべし。
補間のメモ
- flycheck(flymake)はLintツールをオンザフライで実行しているだけでLintツール自体は別に必要。flake8とかpylintがそれにあたる。
設定
- まず各種インストール
# aptで入れるもの $ sudo apt-get python3-pip ipython3 python3-tk virtualenv virtualenvwrapper $ sudo ln -s /usr/bin/ipython3 /usr/bin/ipython # pipで入れるもの $ pip3 install rope jedi autopep8 flake8 # Emacsで入れるもの $ (in Emacs) M-x package-install RET jedi RET $ (in Emacs) M-x jedi:install-server RET
- Emacsパッケージとして入れるものは,elpy, company(補完),company-jedi, flycheck(On-the-fly check)。
- Python用の.emacs設定を公開してくれているページを参考に.emacsを編集してEmacsを起動すると自動でインストールしてくれる(use-packageは別途入れておく)。
;; Python ;; Standard Jedi.el setting (add-hook 'python-mode-hook 'jedi:setup) (setq jedi:complete-on-dot t) ;; Use Company for auto-completion interface. (defun my/python-mode-hook () (add-to-list 'company-backends 'company-jedi)) (use-package company-jedi :ensure t :init (add-hook 'python-mode-hook 'my/python-mode-hook)) (use-package flycheck :ensure t :init (global-flycheck-mode t)) (use-package elpy :ensure t :defer 2 :config (progn ;; Use Flycheck instead of Flymake (when (require 'flycheck nil t) (remove-hook 'elpy-modules 'elpy-module-flymake) (remove-hook 'elpy-modules 'elpy-module-yasnippet) (remove-hook 'elpy-mode-hook 'elpy-module-highlight-indentation) (add-hook 'elpy-mode-hook 'flycheck-mode)) (elpy-enable) ;; jedi is great (setq elpy-rpc-backend "jedi")))
`
FLAKE8の特定の警告を無視する
- PEP8の警告は良いけど、一行80文字制限は逆に見難くなるので警告を止めたい。
- そんな場合に、~/.flake8ファイルに下記の様に書くと特定の警告を無視したり、一行の最大文字数などを設定できる。
[flake8] ignore = E226,E302,E41 max-line-length = 160 exclude = tests/* max-complexity = 10
最低限の使い方
# MISC M-x elpy-config : 設定の確認 # REPL C-c C-z : REPLバッファに移動 C-c C-c : バッファをREPLに送信 C-M-x : 現在のトップレベルのクラスまたは関数を送信 C-ENTER : カレントラインをREPLに送信 ;移動 M-. : 定義にジャンプ M-* : ジャンプ元に戻る M-, : M-*のジャンプ前に戻る C-x 4 M-. : 別ウィンドウ開いて定義にジャンプ
Cmakeのメモ
使い方
- CMakeList.txtにMakefileの生成ルールを記述.
- CMakeLists.txtを用意したディレクトリを指定してcmakeを実行するとMakefileが生成される.後は通常通りにmakeでコンパイル.
- ただし,cmakeするとCMakeCache.txtやら色々できてディレクトリが汚れるのでソース外ビルドでやるのが良い.やりかたは,buildディレクトリなりを一旦作って,そのディレクトリに移動して"cmake ..“すれば,buildディレクトリにビルドセットアップ一式が生成される.そこでmakeする.相対パスを使っている場合は注意する.
CMakeList.txtの書き方(基本)
# cmakeのバージョン(必須) cmake_minimum_required(VERSION 2.8) # コンパイラ指定 set(CMAKE_CXX_COMPILER /usr/bin/clang++ ) # コンパイルオプション set(CMAKE_CXX_FLAGS "-Wall") # -I : include pathを順に追加 include_directories(/usr/share/path1) include_directories(/usr/share/path2) # -D : 定義を追加 add_definitions(-DDEBUG) # -L : ライブラリ検索パスを追加 link_directories(/usr/share/lib) # 出力する実行可能形式と,それが依存するソースファイル.(ヘッダは自動解析) add_executable(Main main.cpp src1.cpp src2) # -l : リンクライブラリ (add_executableよりも後ろに書く) -lm -lglut を指定する target_link_libraries(Main glut m)
複数のディレクトリを一括コンパイル
- 例えば下記のディレクトリ構成で,hoge, fooを同時に生成したい場合.トップディレクトリのCMakeList.txtでadd_subdirectory を指定しておき,各ディレクトリでもCMakeList.txtを用意しておく.トップでcmakeしてmakeすればサブディレクトリも一括してコンパイルしてくれる.
- root_dir - CMakeList.txt # add_subdirectory(hoge), add_subdirectory(foo)を記述しておく. - hoge - CMakeList.txt # hoge.cppをコンパイルする記述をしておく. - hoge.cpp - foo - CMakeList.txt # foo.cppをコンパイルする記述をしておく. - foo.cpp
cmakeのバージョン
cmake_minimum_required(VERSION 2.8)
find_package(GLUT) find_package(OpenGL)
set(CMAKE_CXX_FLAGS “-g -Wall”) add_executable(Main main_openGL.cpp) target_link_libraries(Main ${GLUT_LIBRARY} ${OPENGL_LIBRARY} m) ||<
特定のアプリ(OpenGL, OpenCV, Qt)などはcmake側で予め用意されている.
用意されているアプリは/usr/share/cmake/Module/Find
コンテナからの要素削除
ひさしぶりに書くとこんな事も忘れてしまっていた.下記のコードでセグメンテーションフォールトが出た. でも,そもそもremove_ifをこんな時には使うようだ.
std::list<int> lis {0,1,2,3,4,5,6,7,8,9}; for (auto itr=lis.begin(); itr!=lis.end(); ++itr) { if (*itr == 2) lis.erase(itr); }
どこで出るかと言うと,eraseした後のforループの更新(++itr). lis.erase(itr)でitr(何かしらのアドレスitr)が指す先が消される.と,そのポインタitrもなくなって++itrが出来なくなる? ならばということで,
std::list<int> lis {0,1,2,3,4,5,6,7,8,9}; for (auto itr=lis.begin(); itr!=lis.end(); ) { if (*itr == 2) lis.erase(itr++); // auto t = itr; itr = itr+1; lis.erase(t)と同じことになる. else ++itr; }
もうforっぽくないので,whileで似たように書ける.
std::list<int>::iterator itr = v.begin(); for (itr != v.end()) { if (*itr == 2) { itr = lis.erase(itr); // eraseの返り値は次のポインタ } else ++itr; }
ポリモルフィズム
目的
- オブジェクトによって振る舞いを変える.
方法
- 子クラスのポインタを親クラスのポインタに代入するのがミソ.(子クラスは親クラスのポインタに代入可能.逆はだめ.)
- それを使う側は親クラスのポインタを引数なりにして受け取って,親クラスのメソッドを呼ぶ.
- その時に,親クラスでvirtual宣言しておけば,親クラスのポインタであっても,実態が子クラスのポインタである場合は子クラスのメソッドを実行する.
- これで,分岐したい処理の分だけ子クラスで分岐できる.
- virtual付けたときと付けないときの違いは下記を参照.virtual付けていないと親クラスのメソッドが実行される.
class Parent { protected: int x_; public: int get_x() const {return x_;} void set_x(int x) {x_ = x;} void non_virtual_func() {cout << "I'm parent.\n";} virtual void virtual_func() {cout << "I'm parent.\n";} Parent(int x): x_(x) {} }; class Child : public Parent { public: void non_virtual_func() {cout << "I'm child.\n";} virtual void virtual_func() {cout << "I'm child.\n";} public: Child(int x) : Parent(x) {} }; int main() { //std::make_unique<Parent> p = std::make_unique<Child>(1); Parent* p = new Child(1); cout << "non virtual function call: "; p->non_virtual_func(); cout << "virtual function call: "; p->virtual_func(); return 0; }