RandomForest@scikit-learn

注意点

  • データは内部でnp.float32に変換されている.np.info(np.float32)で確認すると3.4e+38程度であふれることがわかる.
  • スパース行列には対応していないので,TruncatedSVDなどの次元圧縮と併用する.
  • xの与え方は[x1, x2, x3, ...]のようにリストで渡す必要がある.よって,1特徴量のxの場合に,[[x1], [x2], [x3],...]とすることを忘れないように.reshape(-1, 1)でそれをやってくれる.ここでの-1は,行,列の一方だけ与えるから,もう一方は良きにやってくれ,って意味.
  • カテゴリカル変数は扱えない.メンテナは今後もそれに対応するつもりは無いようだ(インデックスを割り振るだけでも木の深さが深くなるなら問題ない,というスタンスのような)
  • scikit-learnの範囲内でダミー変数かする方法としてはDictVectorizerが使える.