新一代強化學習：量子訓練經典神經網路

# 新一代強化學習：量子訓練經典神經網路 QML ( 量子機器學習，Quantum Machine Learning ) 目前是量子計算領域中非常火紅的研究主題。如同機器學習，QML 也可以分類為監督、非監督與強化學習，其中量子強化學習（QRL）在 decision-making 問題上的表現有超越傳統強化學習的潛力。然而，QRL 的發展面臨許多問題，諸如資訊編碼與實際在量子電腦上執行的問題。為了解決這問題，臺灣大學應用物理研究所劉博士候選生提出用 Quantum-Train（QT）訓練經典機器學習，稱作 QTRL，研究結果預發表在 [《arXiv》](https://arxiv.org/abs/2407.06103)上。 ## 強化學習簡介強化學習（Reinforcement learning）是一種機器學習的方式，它的核心概念是試錯法（trial & error），如下圖所示，由 actor (agent)、action、environment、state、reward 組成

強化學習的示意圖

以打遊戲為例，actor 就是遊玩者本身 ( 或稱之為主體 )。遊玩者看到這遊戲（即環境，environment）中的第一個畫面（即狀態，state）後會針對當時的情況下做出移動或擊殺等等的行動（即 action）。遊玩者作出的行動會有相對應的獎勵 ( reward )，如得分或扣分，同時會產生下一個畫面，讓主體做出下一步動作。強化學習的核心就是讓主體學習如何去作出正確的行動，以獲得盡可能高的獎勵。著名下圍棋的 AlphaGo 就是採用強化學習。Agent 是演算法本身，environment 是對手，state 就是這回合的棋盤，action 就是 agent 看到棋盤後決定要下的棋，reward 是最終的勝負。AlphaGo 要透過多次比賽，不斷學習提高勝率的方法。而量子強化學習（QRL）就是在整個強化學習的流程中，訓練的主體變成了量子電腦。在某些問題上，QRL 表現優於經典 RL，然而，QRL 的發展也面臨不少問題，像是如何將將經典資訊有效地編碼為量子資訊，雖然有很多常用的編碼方式，但這往往增加複雜性；此外，現在量子電腦的成本高，數量少，在訓練過程需要量子電腦的地方就要線上排隊（因為全世界的人都要用），耗時比經典 RL 高出不少。

為了與量子電腦做區別，現在常見的電腦、手機、伺服器乃至超級電腦，都歸類為經典電腦

QRL 示意圖
Picture come from arXiv:2108.06849v

為了解決這問題，臺灣大學劉宸銉博士後選生提出 Quantum-Train (QT)方法，利用量子神經網路（quantum neural network, QNN）訓練經典神經網路（Neural network, NN），他為此方法取名為 QTRL（Quantum-Train reinforcement learning）。 ## QTRL 簡介在 QTRL 架構上，首先建立以 $U_3$ gate 組成、重複 $L$ 次的 QNN，並藉由變更 $U_3$ gate 參數生成測量結果。因為量子電路生成的是機率介在 $\{0,1\}$ 之間，因此需要一個 mapping model 將 QNN 的輸出映射到 $\{-\infty,\infty\}$ 。最後，mapping model 的輸出將作為經典目標神經網路的參數 ( 這裡的例子就是上述提到的 Actor )。

QTRL 示意圖

在經典神經網路架構中，需要訓練 $k$ 個參數（記做 $\theta$）。而使用 QTRL 的架構，僅需 $\log_2{k}$ 個 qubits，訓練 $O(poly \log{k})$ 個參數。換言之，只需用 $O(poly \log{k})$ 個參數產生 $k$ 個 $\theta$。 ## 實驗結果為了證明 QTRL 的效果，作者使用常用於強化學習實驗的兩個環境：CartPole-v1（車子行駛過程中，車頂上的桿子要保持平衡）與 MiniGrid-Empty-5x5-v0。在 CartPole-v1 環境中，經典方法需要訓練 898 個參數。如果使用 QTRL，僅需要 10 個 qubits 以及約 361~651 個參數（取決於 QNN 的深度 $L$）。

CartPole 環境下，經典與 QTRL 方法所需參數數量，以及最後十次訓練的平均積分（reward）

在下圖中可以明顯看到，QNN 深度越深（$L$ 越大的），其表現越接近經典方法（紅線）。 $L=5$ 的 QTRL 僅需 651 個參數，就在最後十次的平均表現超越經典方法。

橫軸類似遊戲回合數，縱軸是該次回合獲得的 reward，紅線是經典方法的實驗結果，藍線 QTRL 方法，顏色越深代表 QNN 的深度越深

在 MiniGrid-Empty-5x5-v0 也觀察到類似的現象。深度最大的 QTRL，僅用 2529 個參數，在最後十次的平均 reward 與需要用到 4835 個參數的經典方法差不多。

MiniGrid-Empty 環境下，經典與 QTRL 方法的訓練結果圖

MiniGrid-Empty 環境下，經典與 QTRL 方法所需參數數量，以及最後十次訓練的平均積分（reward）

由上述兩個實驗，QTRL 相比經典方法，可以用更少的參數實現更有效率的強化學習，深度越大的 QNN，表現能接近甚至超越經典方法。這樣的特點可以拿來發展邊緣運算，利用此架構將模型放入移動式裝置中。此外，QTRL 不需要 data encoding 層，因此電路大小與所需的 qubits 數，和輸入資料大小無關，不必擔心因為資料量太大使得量子電路大得不切實際，更不需要花費精力在複雜資料的 encoding 上。最後一個也是這模型最大的特點，他可以不用在量子電腦上做計算，可以全部都在經典電腦上做訓練，這將大幅提升模型的可用性。像是在自動駕駛中，如果有一部分工作需要靠量子電腦，就要透過雲端將資料傳到某公司管理的量子電腦，排隊等待，算完之後傳回車子上，這將使得 QML 難以做到即時反應的需求，然而，QTRL 因為可以全部都在經典電腦上執行，將容易應用。

此文章僅作初步導讀，有更多內容在本文中沒有詳細提到，歡迎參看原論文

## 參考資料 - [強化學習簡介](https://www.youtube.com/watch?v=XWukX-ayIrs&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&index=29) - [Quantum Train 總覽](https://github.com/Hon-Hai-Quantum-Computing/QuantumTrain) - [arXiv:2407.06103 [quant-ph]](https://arxiv.org/abs/2407.06103)

陳世杰
LinkedIn

Entangletech 的實習生，興趣在於量子計算以及機器學習，也將繼續探索這兩個領域。

林昱誠
LinkedIn

林昱誠是 EntangleTech 技術長，同時也是一名藥師，研究所期間致力於藥物化學研究。2023 年 IBM 評選為臺灣第七個 Qiskit advocate，也是臺灣唯一一個非理工出身的 Qiskit advocate，致力於推廣量子計算應用於藥學與醫學領域。