統計・機械学習

多重共線性のメモ

意味 説明変数間に高い相関がある場合に,それら相関の高い説明変数群で 作られる回帰モデルの構築に問題が発生すること.具体的な問題は? 具体的な問題点 ・係数の符号の理解が困難になる.つまり,一つ一つの説明変数として 意味を考えることの合理性が弱…

オンライン学習

オンライン学習全般 ・データを保持しなくて良いという性質が有効なシーンがある. →(1)セキュリティ,プライバシーの問題上データを保持することができない場合 (2)データが多いために保持することが困難な場合 ・汎化性能の評価などが比較的容易(リ…

最適化(導関数がない,求める事が困難,かつ,制約が無い場合)

導関数がない場合 ・滑降シンプレックス法(アメーバ法,Nelder-Mead法とも呼ばれる)を使う. (線形計画問題のシンプレックス法とは違う) アルゴリズム概要を理解することは容易.ただ,なんでこれでうまく行くのかの理解は難しそう. というか,これでう…

最適化(微分可能な解析式があって制約が無い場合)

微分可能な解析式がある場合(制約なし) →1階微分と2階微分が0になる点を探せばいい ・そんな点って?N変量ならN個の偏微分で得られる連立方程式を解けばいい. →線形な場合は解けるよね? →いやいや.制約ないならそもそも解が無い. →非線形な場合は? →…

フーリエ変換とウェーブレット変換

フーリエ変換 ・フーリエ変換は時間的に変化する信号を周波数領域の表現に変換する. ・フーリエ級数展開は周期性が必須だが,フーリエ変換では必須ではない ・無限の周期を仮定する. ・(↑が理由?)定常性を持った信号への適用には適するが,非定常な信号…

多変量分布に従う乱数の生成

1.多変量正規分布に従う乱数の生成 パラメタは期待値ベクトルΛと共分散行列∑の2つ. 作り方のイメージは,一旦N(0,1)に従う独立な標準正規分布の乱数を生成して, それを,線形変換して期待値ベクトルΛと共分散行列∑に従う乱数に変換する. そして,そん…

Wekaのサンプル集

Weka全般に関して CSVも読込み可能だけれど,Weka標準のARFF形式に変換して入れておくほうが良い. 理由はCSVだとincrementalなreadができないこと,カテゴリ変数の全カテゴリがテストセットに出現することが保証されないこと. Convert CSV to ARFF online…

単回帰・重回帰

回帰式の評価指標 ・決定係数R^2 モデルが実測値をどのくらい説明しているのか?を表す. R2=(実測)^2和/(予測値)^2和 →1に近いほど説明している,0に近いほど説明できてない. *重回帰の場合,説明変数が多くなると,(意味は無くとも)決定係数が大…