2020年11月に”Quantization of Blackjack: Quantum Basic Strategy and Advantage“という非常に興味が惹かれるタイトルの論文を見かけたので紹介します。
論文の背景
この論文は量子コンピュータのギャンブルでの実用化を見据えています。例えばオンラインカジノのように対戦者が離れた状態でのゲームを考えたときに、古典コンピュータでは信頼できる第3者の仲介なしに公平なゲームは成立しないと言われています。
しかし量子状態の重ね合わせや観測といった手続きを用いた量子ギャンブルであれば第3者の仲介なしでも公平なゲームが成立可能と考えられていて、チェスやポーカーなど様々なゲームへの応用が提案されてきました。
本論文のブラックジャックもそのような流れを汲んでいるでしょう。
論文の紹介するポイント
この論文で紹介したい点は次の2点です。
- 量子計算を使ってブラックジャックを再現することが可能
- エンタングルメントを利用したゲーム戦略を導入するとプレーヤーのリターン期待値が上昇する
問題設定
具体的な話に移る前に、ブラックジャックのルールを簡単におさらいします。
ブラックジャックはプレーヤーとディーラーの1対1のゲームです。手持ちのカードの値を21に近づけた方が勝利、ただし21以上はバーストとなり敗北という非常にシンプルなゲームです。
ここでカードの値は絵札(JQK)は一律10、エースは1または11を状況に応じて選択、その他のカードは表記通りの値として計算します。
ゲームの流れは以下の通りです。
- ディーラーはカードを両者に2枚ずつ裏向きで配る(ディーラーは1枚は表にする)
- プレイヤーはカードを引く(hit)か引かない(stand)かを選ぶ
- ヒットした場合、カードを引いた場合手札の合計が21を超えた場合ディーラーの手札に関わらずプレーヤーの敗北
- ディーラーは手元の裏向きカードを表側にして手札の合計が17以上になるまでカードを引き続ける
- ディーラーがバーストする、もしくはプレーヤーの手札のほうが21に近い場合プレーヤーの勝利
余談ですがディーラーはあくまで機械的にカードを引くため、勝敗に影響するのはプレーヤーの戦略のみです。敏腕ディーラーがと想像しがちですがブラックジャックにおいては関係ないといってもいいでしょう。
問題のモデル化
以上がブラックジャックの本来の流れですが、52枚のカードを扱うのは規模が大きいので論文ではモデル化した”snackjack”で検証を行います。ブラックジャックとの違いはこちらです。
scackhack | ブラックジャック | |
---|---|---|
扱うカード | 8枚 “A”2枚,”2″2枚,”3″4枚 | 52枚 1からKの13枚4組 |
エース | 1または4 | 1または11 |
目標 | 7 | 21 |
プレーヤーの戦略 | hit/stand (1回のみ) | hit/stand |
ディーラーのストップ基準 | 6以上 | 17以上 |
ブラックジャックの実装
量子回路の概要
では具体的にどのように量子操作でsnackjackを構築するかというと下のような量子回路が考えられます。
必要な量子ビットは6種類です。デッキ$|D\rangle$、プレーヤー手札$|p\rangle$、ディーラー手札$|d\rangle$はそれぞれ8量子ビットで構成されていて、カードが存在する場合は1、存在しない場合は0で表現します。
プレーヤーとディーラーのstrategyビットはhitかstandかを選択することができるため、戦略の選択をするためのビットです。
制御ビットはカードが出現する確率を表現するためのビットで3量子ビットで構成されます。
$$|\Psi\rangle = \frac{1}{\sqrt{8}}\sum_{ijk=0}^1|ijk\rangle$$
この3ビットはカードの組み合わせ8通りを表現していて、例えば$|000\rangle$は1枚目のエース、$|001\rangle$は2枚目のエースといった具合です。
量子回路を見るとまずカードを配布した状態はデッキ、プレーヤー手札、ディーラー手札の状態を用意することに相当します。次にプレーヤーはstrategyビットを操作することでhitかstandを選択します。
そしてhitの場合はプレーヤーのhit演算子が作用し、続いてディーラーのhit演算子が作用します。ディーラーに複数のhit演算子があるのは手札の値が6未満の場合ディーラーはヒットしなくてはならないからです。
hit演算子の実装
ではhitを表現する演算子の実装を具体的に見ていきます。hitするというのはデッキのカードを手札に加えることです。
したがってデッキのあるカード$|D_i\rangle$と手札(下図はプレーヤー)$|p_i\rangle$の状態をSWAP操作で交換することと等価です。ただしこのときデッキに対象のカードが存在しないといけないので$|D_i\rangle$が存在するかどうかの制御操作となっています。制御ビットにも制御操作が絡んでいるのは観測時に1/8の確率であるカードの状態に収束させるためです。
以上のような量子操作を拡張することでブラックジャックを再現することができると考えられます。
エンタングルメントを用いた戦略の導入
以上は古典コンピュータで行われるようなブラックジャックを量子コンピュータで再現するものでしたが、ここからは量子特有の性質を導入したときのゲームの変化を見てみます。
下図のようにプレーヤーとディーラーのstrategyビットをエンタングルさせるというものです。
ここで$S_p$はパウリ演算子、$\gamma$はエンタングルの強さの度合い、$J$は下のように表されるゲートです。
$$J = \exp (-i\frac{\gamma}{2}\hat{X}\otimes\hat{U})$$
こちらの量子回路においても先程説明したsnackjackは変わらず成立します。
今回計算は省略しますが、$S_p=\hat{X}, \hat{I}$の場合(Standard Strategyと呼ぶ)はそれぞれhit、atandを選択した場合と等価です。しかし$S_p=\hat{Y}, \hat{Z}$の場合(Quantum Strategyと呼ぶ)先程のゲームでは存在しなかった効果が状態に影響を与えます。
Quantum Strategyによる期待値の上昇
Quantum StrategyとStandard Strategyの期待値をそれぞれ計算するとQuantum Strategyは+10.2%($\gamma=\pi/2$)、Standard Strategyは-1.7%という結果となり、Quantum Strategyを採用したほうが大きくプレーヤーの期待値を上昇させることがわかりました。
具体的な期待値の一覧は下の表です。上はQuantum Strategyを採用した場合、下はStandard Strategyを採用した場合の期待値一覧です。
この表は初期手札に対して戦略を選んだときにどれだけのリターンが期待されるかを計算しています。感覚を掴むために1つ例として考えてみましょう。
例えばStandard Strategyの1番のように初期手札がエース2枚の場合を考えます。まずはstandの場合から考えます。
プレーヤーの手札 | ディーラーの手札 | プレーヤーの勝敗 | 確率 |
---|---|---|---|
A, A | 2, 3 | X | 1/5 |
A, A | 3, 2 | X | 1/5 |
A, A | 3, 3 | O | 3/5 |
勝利時はベットと同額がペイされ、敗北時は没収されます。ここでは各ゲーム1だけベットした場合を考えると、Standを選択したときの期待値$S_{std}$は1/5です。
$$E_{std} = -1 \times \frac{1}{5} -1 \times \frac{1}{5} +1 \times \frac{3}{5} = \frac{1}{5}$$
プレーヤーの手札 | ディーラーの手札 | プレーヤーの勝敗 | 確率 |
---|---|---|---|
A, A, 2 | 3, 3 | O | 1/5 |
A, A, 3 | 2, 3 | X | 1/5 |
A, A, 3 | 3, 2 | X | 1/5 |
A, A, 3 | 3, 3 | O | 2/5 |
同様にhitを選択した場合の期待値は1/5というようにどちらの戦略を選択しても期待値は変わらないという結果でした。
$$E_{std} = 1 \times \frac{1}{5} -1 \times \frac{1}{5} -1 \times \frac{1}{5} +1 \times \frac{2}{5} = \frac{1}{5}$$
以上のような計算を各手札について行うと表のような結果を得ることができます。
まとめ
以上のように量子コンピュータを使ったブラックジャックを実装した場合、Quantum Strategyを導入するとエンタングルが強いほどプレーヤーに有利であることがわかりました。
実用化する場合ははたして導入されるのでしょうか。。。
コメント