Week4
特徴がx_1, x_2だけであればロジスティック回帰で良い。
しかしx_1〜x_100もの数を扱うとなると、それらを二次や三次の方程式で表したx_1^3やx_1 * x_2といった特徴も扱うことになり、合計で5000以上の特徴を扱う必要が出る。
特徴が多いとオーバーフィットにつながり、また計算コストが高くなる。
この問題は画像認識を解く際、特に顕著になる。
x_0はbiasを表すが、常に1なので省略する時もある。
この講義ではθをparameterと呼ぶが、weightと呼ぶ人もいる。
jがレイヤーのインデックス、sがユニットの数だとする。
下の例ではs_1=2、s_2=4となる。

この時のΘの次元は下記の式で求めることができる。

先の例に当てはめると、4*(2+1)から次元は4*3であることがわかる。