バンディット – MIIDAS Science Blog

2020.03.26

Contextual Bandit LinUCB LinTS

[latexpage] こんにちは。本日は文脈バンディットをやっていきます。行列とかでてきて、、、、計算が苦手な僕は、、、って感じなんですけどやってることは前回のUCBをTSと全く同じなので気楽にい……

2020.03.19

Doubly Robust AIPTW

こんにちは。本日はダブルロバストについて勉強します。まぁ、IPWも厳密には理解できていないんですけどね。。。。僕の勉強スタイルはとにかく大きく進んで大きく戻っての繰り返しです。するとたまにぱってアイ……

2020.02.07

バンディットアルゴリズムの続き

[latexpage] こんにちは。今回は前回のバンディットアルゴリズムの続きです。UCBと簡単なトンプソンサンプリングの実装を行います。前回実装した$\epsilon$-GreedyとBoltzm……

2020.01.29

強化学習　Bandit Algorithm で入門する

[latexpage] こんにちは。本日は強化学習に入門します。けどMDPとかはやらないので安心してください。簡単だと思います。ビジネスにおいてもバンディット問題は多くあるということなのでためになる……