多腕バンディット問題を勉強しようぜ(^~^)?

ぴゅしゅーん(^~^) しゅるるるー(^~^) 公開下書き

多腕バンディット問題を勉強しようぜ(^~^)?

ramen-tabero-futsu2.png
「 多腕バンディット問題を勉強しようぜ?」

kifuwarabe-futsu.png
「 何だぜそれ?」

📖 Vol.31.No.5(2016/9)多腕バンディット問題

ohkina-hiyoko-futsu.png
「 👆 運ゲーでも、でかいラッキーを掴む動きをしましょう、というやつよ」

20210805go2.png

ramen-tabero-futsu2.png
「 👆 バンディット って こいつだな」

ohkina-hiyoko-futsu.png
「 スロットマシーンねぇ」

20210805go3.png

ramen-tabero-futsu2.png
「 👆 多腕バンディット というのは バンディットが複数あることらしいぜ」

ohkina-hiyoko-futsu.png
「 スロットマシーンが複数ねぇ」

モデルの選定

20210805go4.png

ramen-tabero-futsu2.png
「 👆 じゃあ きふわらべ がお金を持ってるとしようぜ?
どの スロットマシーン で アームを引く(=プレイする)のが一番儲かるんだぜ?」

kifuwarabe-futsu.png
「 お金を使わないのが 一番儲かるのでは?」

ramen-tabero-futsu2.png
「 日本に長く住み過ぎたようだな。ここは ドバイで 今 石油王やってると思ってプレイしろだぜ」

kifuwarabe-futsu.png
「 それでも 金庫に入れとくかな」

ohkina-hiyoko-futsu.png
「 ギャンブルしない わたしたちには この例は 不適切なのよ!」

ramen-tabero-futsu2.png
「 じゃあ このコインは 現金に替えれないもので、 1度 スロットマシーンに通すと 現金に替えれるとしようぜ?」

kifuwarabe-futsu.png
「 ダメ元で スロットマシーンに コインを全部入れるべきだぜ」

ramen-tabero-futsu2.png
「 よっしゃ! 行け! きふわらべ!」

20210805go5.png

kifuwarabe-futsu.png
「 とりあえず こいつに 全部 つぎ込むかだぜ」

ramen-tabero-futsu2.png
「 もっと いろいろなスロットマシーンで遊ばないのかだぜ?」

kifuwarabe-futsu.png
「 どれも同じだろ」

ohkina-hiyoko-futsu.png
「 コインが良く出てくるスロットマシーンと、 コインが良く出てこないスロットマシーンがあるんじゃないの?」

kifuwarabe-futsu.png
「 なんで そんなことをするんだぜ」

ramen-tabero-futsu2.png
「 不良品だって あるかも知れないしな」

kifuwarabe-futsu.png
「 客にデバッグをやらすなだぜ」

ohkina-hiyoko-futsu.png
「 労働になってんのよ」

ramen-tabero-futsu2.png
「 金が増えて喜ばないやつを 動かすのは難しいな……。 じゃあ依頼だぜ。
金を増やしてくれだぜ」

kifuwarabe-futsu.png
「 しかたないな……。どうやったらいいんだぜ?」

ramen-tabero-futsu2.png
「 どうやったら いいんだろうな?」

20210805go6.png

kifuwarabe-futsu.png
「 👆 どの台もランダムだったら わたしは動きたくないし」

ohkina-hiyoko-futsu.png
「 それも 分かんないんじゃない?」

舐めてるスロットマシーン

20210805go7.png

kifuwarabe-futsu.png
「 👆 台を移動すると困るケースもあるぜ。
台が円形になるとしよう。 わたしの右側の台だけ コインが出てくる台だとしよう」

20210805go8.png

kifuwarabe-futsu.png
「 👆 わたしは 台で1プレイしたあと 右へ移動するとしよう。
コインが出てくる台も、店で誰かが1プレイしたら コインが出てくるのは右の台に移るとしよう」

ramen-tabero-futsu2.png
「 悲観わらう」

ohkina-hiyoko-futsu.png
「 店側に そういう仕掛けがあるかも知れないから、こっちは ランダムに台を選んで アームを引くのが良さそうね」

ramen-tabero-futsu2.png
「 その 良い ってのは どういうことだぜ?
最悪のケースを避けれるから 良い ということかだぜ?」

ohkina-hiyoko-futsu.png
「 こっちの動きのクセを読んで 対応して 当たり台を変えてくる店もあるかも知れないから、そういうことね」

ramen-tabero-futsu2.png
「 そんなん対応できるんだったら その店の頭脳を盗んできたいぜ」

kifuwarabe-futsu.png
「 その他にも 気になることがあるぜ」

生活習慣スロットマシーン

20210805go9.png

kifuwarabe-futsu.png
「 👆 昼に カジノに行っても、1つも当たらないとしよう」

20210805go10.png

kifuwarabe-futsu.png
「 👆 夜は早く寝ているが、カジノに行ってれば バンバン 当たっていたとしよう。
リグレットだぜ」

ohkina-hiyoko-futsu.png
「 可哀想に」

ramen-tabero-futsu2.png
「 悲観的なの わらう」

つむじまげスロットマシーン

20210805go11.png

kifuwarabe-futsu.png
「 👆 当たるマシーンを見つけたとしよう。
このアームばっかり 引こうぜ」

20210805go12.png

kifuwarabe-futsu.png
「 👆 そしたら つむじを曲げて 当たらなくなるかもしれないぜ」

ramen-tabero-futsu2.png
「 嫌われたんだな」

モデルの選定2

kifuwarabe-futsu.png
「 どんなことが起こるか分からないのに、うまく立ち回る方法なんか 分かんないぜ」

ramen-tabero-futsu2.png
「 うまく立ち回ってるやつがいたら、どんなことが起こるのか 分ってるのかだぜ?!」

ohkina-hiyoko-futsu.png
「 対偶ね」

20210805go13.png

ohkina-hiyoko-futsu.png
「 👆 どんなことが起こるか 分かっている状態って、こういうことよね」

// Red
0.5 * 2 = 1
0.5 * 0 = 0
1 + 0 = 1

// Orange
0.1 * 15 = 1.5
0.9 * 0 = 0
1.5 + 0 = 1.5

// Yellow
0.75 * 0 = 0
0.25 * 3 = 0.75
0 + 0.75 = 0.75

kifuwarabe-futsu.png
「 オレンジ色の台の期待値が高そうだな。 オレンジ色の台を選ぶぜ」

ramen-tabero-futsu2.png
「 どんなことが起こるか 知ってるやつの動きだぜ!」

ohkina-hiyoko-futsu.png
「 でも 多腕バンディット問題って、 どんなことが起こるか分からないときにやる問題なのよ」

kifuwarabe-futsu.png
「 いくらなんでも無理では?
ビデオゲームで言う 初見殺し(しょけんごろし) は、 避けようがないのでは?」

※初見殺し … どんなことが起こるか分かってないプレイヤーには、反応しようとしたときにはすでに避けれないトラップなど

ohkina-hiyoko-futsu.png
「 完璧な解決を目指すと 何もできなくなるから、少しでもマシな方を目指すのよ」

ramen-tabero-futsu2.png
「 どんなことが起きるかを 明らかにできるなら 明らかにし、
そうでなければ 今 明らかになっていることをもとに マシな動きをする、みたいな感じかだぜ?」

kifuwarabe-futsu.png
「 だから 明らかになったかどうかを確認する方法が無いだろ?
たまたま そうだったのか、 必ず そうだったのか」

ohkina-hiyoko-futsu.png
「 少しでもマシな方を目指すのよ」

kifuwarabe-futsu.png
「 じゃあ たまたま そうだったことが、 必ず そうだったのかであるように 信じてみる、
みたいな感じかだぜ?」

ohkina-hiyoko-futsu.png
「 いい方向に 転換してきた!」

kifuwarabe-futsu.png
「 カジノが裏で 確率を操作してたら どないしよ」

ohkina-hiyoko-futsu.png
「 わるい方向に 戻って行った!」

ramen-tabero-futsu2.png
「 都合のいいケースで 考えてみようぜ、きふわらべ。
都合のわるいケースを解決する方法なんか 無いだろ」

20210805go14.png

kifuwarabe-futsu.png
「 👆 理想の世界を勝手に作ってしまえばいいのかだぜ。
当たる確率と、当たると1枚が何枚になって返ってくるかの倍率があって、
これは 台ごとに固定だとしよう」

ohkina-hiyoko-futsu.png
「 いい感じに なってきたわよ!」

20210805go14a1.png

kifuwarabe-futsu.png
「 👆 そして パーセントと 返ってくるコインの枚数が 隠れているとしようぜ」

ramen-tabero-futsu2.png
「 モデルを作ることを覚えたな」

kifuwarabe-futsu.png
「 しかし こんな 当てずっぽうなモデルなんか作って どうすんだぜ?」

ohkina-hiyoko-futsu.png
「 その 当てずっぽうのモデル をバージョン1 として、
それより少しマシな 当てずっぽうのモデル バージョン2 を作ればいいのよ」

kifuwarabe-futsu.png
「 一番いい 当てずっぽう を作ったら勝ちか?」

ohkina-hiyoko-futsu.png
「 そう! そのまま進みなさい!」

kifuwarabe-futsu.png
「 一番いい 当てずっぽう か、そうでないかを どう判定するんだぜ?」

ramen-tabero-futsu2.png
「 やってみるしかないんじゃないか? 結果が悪かったら よくないし、結果が良かったら いいぜ」

20210806go15.png

kifuwarabe-futsu.png
「 👆 毎日カジノして、 良い日もあれば 悪い日もあれば、
記録を取り終えたところが たまたま 良い日なら 良い結果で、 悪い日なら 悪い結果になるんじゃないかだぜ?」

ohkina-hiyoko-futsu.png
「 そういうこともあるだろうけど、そういうことが無かったと思って 考えたらいいんじゃない?」

20210806go16.png

kifuwarabe-futsu.png
「 👆 ずっと良くなると 仮定しないと 考えることもできないな」

ramen-tabero-futsu2.png
「 頭の使い方を 覚えてきたかだぜ」

20210806go17.png

kifuwarabe-futsu.png
「 👆 最初 コインを10枚持っていて、 1台のマシンで 1枚ずつ 10回プレイしたら、 持っているコインの枚数は
10 枚だったぜ」

ohkina-hiyoko-futsu.png
「 期待値は 1倍 ね」

ramen-tabero-futsu2.png
「 こういう調査を 探索(Exploration) と呼ぶそうだぜ」

20210806go18.png

kifuwarabe-futsu.png
「 👆 探索をやりすぎると、店が閉まって 明日は 台の設定が変わってるかも」

ohkina-hiyoko-futsu.png
「 朝に 探索して、 夜は 探索したデータを元に一番良い台に絞って 全振りしたらいいんじゃない?」

ramen-tabero-futsu2.png
「 活用(Exploitation) だな」

kifuwarabe-futsu.png
「 探索してる間にも コインは減り続けるかもしれないんだろ?」

ramen-tabero-futsu2.png
「 そうだぜ」

20210806go19.png

kifuwarabe-futsu.png
「 👆 手持ちのコインが 4枚 しかないときに、 カジノに 16台のマシンがあると、
大当たりをすれば別だが、全部を探索することもできないぜ?」

ramen-tabero-futsu2.png
「 都合のわるいケースは 省けだぜ。 結局 考えても 差が付かない」

20210806go20.png

kifuwarabe-futsu.png
「 👆 手持ちのコインが 16枚 しかないときに、 カジノに 16台のマシンがあると、
一通り探索したところで 活用できないかもしれないぜ?」

ohkina-hiyoko-futsu.png
「 胴元の取り分もあるでしょうから、 席料 上納して終わりよね」

ramen-tabero-futsu2.png
「 将棋で サンプリング(最初から数台に絞り込む)したら 悪手ばっかり 拾うだろうしな」

kifuwarabe-futsu.png
「 囲碁だと 自分の手番で置ける石は 1つなんで 活用は1回だけか。
残りの全部 探索に回して良さそうだな」

20210806go21.png

kifuwarabe-futsu.png
「 1台 1プレイした程度だと 何も分からんぜ。
1台につき 2000回はプレイしたいぜ」

ramen-tabero-futsu2.png
「 統計的手法の むずかしいところだよな」

ohkina-hiyoko-futsu.png
「 1台につき 2000回プレイできるとして 考えなさいよ。
なんで頭の中でまで 貧乏なのよ わたしら」

20210806go22.png

kifuwarabe-futsu.png
「 👆 コンピューター囲碁ではなく、 前に仮定した スロットマシーンのモデルでの話しだが、
1台で 2000回 探索すれば 有効桁数3桁の精度が出るんだろうけど、
店が閉まるか、コインが尽きるか しそうではある」

ramen-tabero-futsu2.png
「 カジノやるなら 探索マンが現れることは 想定しておかないとな」

ohkina-hiyoko-futsu.png
「 きふわらべちゃん。 べつに 有効桁数3桁とか 目的ではないのよ」

20210806go23.png

ohkina-hiyoko-futsu.png
「 👆 スロットマシーンでの知見を コンピューター囲碁で使う事まで想定するんだけど、
手番では1手しか選べないのだから、 1番いい台が どれか 分れば十分なのよ。
余裕があれば 2番目、3番目、4番目とかも分かれば 同じ棋譜を再現しなくて済みそうで 強化学習に発展できそうよね」

kifuwarabe-futsu.png
「 1番~4番の手を見つければいいとしても どれだけ プレイすれば それを言えるのに十分なのか?
なんか アテは あるものかだぜ?」

ramen-tabero-futsu2.png
「 統計には 信頼区間(Confidence Interval) というものがあるな」

何度でもクリック!→

むずでょ@きふわらべ第29回世界コンピューター将棋選手権一次予選36位

光速のアカウント凍結されちゃったんで……。ゲームプログラムを独習中なんだぜ☆電王戦IIに出た棋士もコンピューターもみんな好きだぜ☆▲(パソコン将棋)WCSC29一次予選36位、SDT5予選42位▲(パソコン囲碁)AI竜星戦予選16位

Crieitは個人で開発中です。 興味がある方は是非記事の投稿をお願いします! どんな軽い内容でも嬉しいです。
なぜCrieitを作ろうと思ったか

また、「こんな記事が読みたいけど見つからない!」という方は是非記事投稿リクエストボードへ!

こじんまりと作業ログやメモ、進捗を書き残しておきたい方はボード機能をご利用ください!

ボードとは?

むずでょ@きふわらべ第29回世界コンピューター将棋選手権一次予選36位 の最近の記事