むずでょ

2019-10-26に更新

Alpha Zero の論文読もうぜ☆（＾～＾）？

コンピューター囲碁公開下書き

「　Alpha Zero の論文って　どこにあるんだぜ☆？」

「　ググれば　出てくるだろ☆」

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

「　↑これじゃないの？」

「　PDF 読めるじゃないか☆」

「　お父んは　前に読んだはずだが……☆」

「　↑出てくる数式　全部メモって行くかだぜ☆」

「　こんな式から何が分かんの？」

「　ｓが決まると　ｐとｖ　が出てくるぐらいだな☆」

「　職人技で作った関数とか、勘より　ディープ・ニューラル・ネットワークだぜ、という自慢が書いてある☆」

「　ｓは局面だな☆　局面といっても　駒の位置を覚えるだけが芸ではなく、どう表現するか　いろいろあるだろ☆」

「　どう　いろいろ　あるのよ？」

「　その　ｓ　を入力として受け取って、指し手の確率　ｐ　を返すとのことだぜ☆
つまり、局面を渡したら　この指し手ｐ　は　どれぐらいｖ　ということを返すと言っている数式だぜ☆」

「　フーン。　ポリシー・ネットワークじゃないの？」

「　この頃は　そうなのかもしれないな☆
このあと　バリュー・ネットワーク　使ったら　もっと強いとか言われだすんだぜ☆」

「　この数式を見ると　何が分かるの？」

「　確率論で出てくる数式だぜ☆
Probability の頭文字 Pr というのは 1 が出てきたら 100% で、 0 が出てきたら 0% みたいなやつだぜ☆
ａ｜ｓ　は　くじの箱にｓ個入っているクジからａ個取り出すぐらいの意味だぜ☆」

「　割り算と何が違うの？」

「　トランプの中から３枚引いてそれが　Ｊ、Ｑ、Ｋ　な確率とか　やりたいことは　いろいろあるだろ☆
どんな式になるのか　ちゃんと書いたら　読みにくいから、めんどくさいんで　ａ｜ｓ　なんだぜ☆」

「　フーン」

「　action って何だぜ☆？　囲碁棋士はジャンプキックでもするのか☆？」

「　囲碁の　action　って何なんだろな☆？　指し手は　move　だし☆　座布団でも投げるのかも知らん☆」

「　コンピューター将棋が最善手のことを　bestmove　というように、
コンピューター囲碁では最善手のことを　z　と書くソフトもある☆　この例がそうかは知らんけど☆」

「　Eって何だぜ☆？」

「　Estimator だぜ☆　犬とか出てきて何言ってるか分からない分野だが、分布の形か何かじゃないか☆？」

「　二本のニョロニョロは何なの？」

「　近似だぜ☆　1.9998　と　2　は近似だし、　1.9999995　と　2　はもっと近似だぜ☆」

「　＝の　できそこない　かだぜ☆？」

「　実用的な ＝ だぜ☆　理想的な数とか　実験で出せない☆」

「　s, v と犬が近似って　どういうことなの？
数学で　カンマで区切られたアルファベットって何なの？」

「　タプル（Tuple）だな☆　２つ揃って１つの何かを表していると考えろだぜ☆」

「　テツとトモかだぜ☆」

「　MCTS はよく出てくる略語なんで覚えておけだぜ☆（＾～＾）」

「　root　は　木の根だぜ☆　S root　なら　開始局面　だな☆
この式は　開始局面から　投了図まで、という意味だな☆
ＭＣＴＳの　プレイアウトとか、　ロールアウトとかいうやつだぜ☆　最後までとにかくやることだぜ☆」

「　将棋ではロールアウトできないんだよな☆
囲碁は　石置いてりゃ　そのうち終わるけど、将棋で駒を動かしても　いつまで経っても進まないからな☆」

「　みんなが関心あるのが　この　ｆ　だぜ☆
Θは　パラメーターなんで、このパラメーターが　なんかいい感じのとき、　ｆ　は　ちゃんと最善手を選んでくれるわけだぜ☆」

「　Alpha Zero は、この　Θ　を自己対局の強化学習で　自動調整できると言ってるわけだな☆」

「　そこが知りたいのに」

starting from randomly initialised parameters θ.

「　学習開始時は　Θ　をランダムにしておくようだぜ☆」

「　αとか　πとか　ｔとか　～ って何なの？」

「　πは　ＭＣＴＳのあとに返ってくる確率分布らしい☆　わたしが知らないということは　犬　と関係あるのだろう☆」

「　他に何か分かるところはないのか☆？」

「　α　は　action　と何か関係あるんじゃないか☆
ｔ　は　よく時間として出てくるから　何手目　とか　そういうやつじゃないか☆？」

「　Terminal Position って投了局面のことだろ☆　やっぱ　Ｔ　は　何手目とかいう数だと思うんだぜ☆」

「　z　って　もしかして　報酬のことだったのかだぜ☆？」

「　outcome が報酬でしょ？
じゃあ　z　は勝敗なんじゃないの？」

「　z - v　という式があとで出てくるが、　v はスカラー値なんで、　z は引ける何かのスカラーなのでは☆？」

「　じゃあ　最善手の確率だろうか☆？」

The neural network parameters θ are updated so as to minimise the
error between the predicted outcome vt and the game outcome z, and to maximise the similarity
of the policy vector pt
to the search probabilities πt

「　Θは　誤差が最小になるように更新するようだぜ☆
予想した報酬 vt とゲームの報酬 z の差がだぜ☆
これは　いい指し手 pt を選ぶ確率 πｔ　を最大化するんだぜ☆」

「　ほんとか☆？」

 Specifically, the parameters θ are adjusted
by gradient descent on a loss function l that sums over mean-squared error and cross-entropy
losses respectively,

「　特に、Θパラメーターは　微分の曲線のぐにゃぐにゃしたやつの勾配を降りていくことで調整されるんだぜ☆
損失関数 l というやつは　平均２乗誤差と　クロス・エントロピーの損失の合計だぜ☆」

「　直訳してるだけじゃないの！　原文に対して　情報を加えなさいよ！」

「　ｚは　なんか　予想上の理想の値か何かだぜ☆？
それとも　今回の実際の値？」

「　πをＴ乗しているのが　何言ってるのか分からん☆」

「　何乗したらｐになるんだぜ☆？」

「　ｃ　は　なんで突然出てきたの？　クロスのｃなの？
タテボウ２つで挟まれているのは絶対値なの？　パラメーターの絶対値なの？　それを２乗？」

「　まだペーパーの３ページ目だぜ☆　慌てるなだぜ☆」

where c is a parameter controlling the level of L2 weight regularisation.

「　↑ちゃんと説明されてるぜ☆　ここで c はパラメーターをコントロールするんだぜ☆
L2の重みの正則のレベルだぜ☆」

「　直訳マン　情報増やしなさいよ！」

AlphaGo Zero estimates and optimises the probability of winning, assuming binary win/loss
outcomes. AlphaZero instead estimates and optimises the expected outcome, taking account of
draws or potentially other outcomes.

「　↑オリジナルの　アルファ碁ゼロは　勝率を予想するのに、勝ち負けの２値だけでやっていたが、
アルファ・ゼロはそれに替えて　引き分けの数やその他のアウトカムも使っているようだぜ☆」

「　本読みマンわらう」

「　盤の回転や、反転は　インバリアントらしいぜ☆」

「　インバリアントって何なのよｗｗｗｗｗｗｗ」

「　バリアントじゃないんだぜ☆」

「　バリアントって何なのよｗｗｗｗｗｗｗ」

「　そのための２つの方法が　３ページ目の末端に書いてある☆」

First, training data was augmented by generating 8 symmetries for each position.

Second, during MCTS, board positions were transformed using a randomly
selected rotation or reflection before being evaluated by the neural network, so that the MonteCarlo evaluation is averaged over different biases.

「　もう読むのも疲れてきたぜ☆」

「　寝ろ☆」

「　自慢と参考文献を読み流して１０ページ目、メソッドへ☆　チェスの話しだぜ☆」