學界新聞

新一代強化學習:量子訓練經典神經網路

# 新一代強化學習:量子訓練經典神經網路 QML ( 量子機器學習,Quantum Machine Learning ) 目前是量子計算領域中非常火紅的研究主題。如同機器學習,QML 也可以分類為監督、非監督與強化學習,其中量子強化學習(QRL)在 decision-making 問題上的表現有超越傳統強化學習的潛力。然而,QRL 的發展面臨許多問題,諸如資訊編碼與實際在量子電腦上執行的問題。為了解決這問題,臺灣大學應用物理研究所劉博士候選生提出用 Quantum-Train(QT)訓練經典機器學習,稱作 QTRL,研究結果預發表在 [《arXiv》](https://arxiv.org/abs/2407.06103)上。 ## 強化學習簡介 強化學習(Reinforcement learning)是一種機器學習的方式,它的核心概念是試錯法(trial & error),如下圖所示,由 actor (agent)、action、environment、state、reward 組成
RL

強化學習的示意圖

以打遊戲為例,actor 就是遊玩者本身 ( 或稱之為主體 )。遊玩者看到這遊戲(即環境,environment)中的第一個畫面(即狀態,state)後會針對當時的情況下做出移動或擊殺等等的行動(即 action)。遊玩者作出的行動會有相對應的獎勵 ( reward ),如得分或扣分,同時會產生下一個畫面,讓主體做出下一步動作。強化學習的核心就是讓主體學習如何去作出正確的行動,以獲得盡可能高的獎勵。 著名下圍棋的 AlphaGo 就是採用強化學習。Agent 是演算法本身,environment 是對手,state 就是這回合的棋盤,action 就是 agent 看到棋盤後決定要下的棋,reward 是最終的勝負。AlphaGo 要透過多次比賽,不斷學習提高勝率的方法。 而量子強化學習(QRL)就是在整個強化學習的流程中,訓練的主體變成了量子電腦。在某些問題上,QRL 表現優於經典 RL,然而,QRL 的發展也面臨不少問題,像是如何將將經典資訊有效地編碼為量子資訊,雖然有很多常用的編碼方式,但這往往增加複雜性;此外,現在量子電腦的成本高,數量少,在訓練過程需要量子電腦的地方就要線上排隊(因為全世界的人都要用),耗時比經典 RL 高出不少。
為了與量子電腦做區別,現在常見的電腦、手機、伺服器乃至超級電腦,都歸類為經典電腦
QRL

QRL 示意圖
Picture come from arXiv:2108.06849v

為了解決這問題,臺灣大學劉宸銉博士後選生提出 Quantum-Train (QT)方法,利用量子神經網路(quantum neural network, QNN)訓練經典神經網路(Neural network, NN),他為此方法取名為 QTRL(Quantum-Train reinforcement learning)。 ## QTRL 簡介 在 QTRL 架構上,首先建立以 $U_3$ gate 組成、重複 $L$ 次的 QNN,並藉由變更 $U_3$ gate 參數生成測量結果。因為量子電路生成的是機率介在 $\{0,1\}$ 之間,因此需要一個 mapping model 將 QNN 的輸出映射到 $\{-\infty,\infty\}$ 。最後,mapping model 的輸出將作為經典目標神經網路的參數 ( 這裡的例子就是上述提到的 Actor )。
QTRL

QTRL 示意圖

在經典神經網路架構中,需要訓練 $k$ 個參數(記做 $\theta$)。而使用 QTRL 的架構,僅需 $\log_2{k}$ 個 qubits,訓練 $O(poly \log{k})$ 個參數。換言之,只需用 $O(poly \log{k})$ 個參數產生 $k$ 個 $\theta$。 ## 實驗結果 為了證明 QTRL 的效果,作者使用常用於強化學習實驗的兩個環境:CartPole-v1(車子行駛過程中,車頂上的桿子要保持平衡) 與 MiniGrid-Empty-5x5-v0。 在 CartPole-v1 環境中,經典方法需要訓練 898 個參數。如果使用 QTRL,僅需要 10 個 qubits 以及約 361~651 個參數(取決於 QNN 的 深度 $L$)。
QTRL CartPole

CartPole 環境下,經典與 QTRL 方法所需參數數量,以及最後十次訓練的平均積分(reward)

在下圖中可以明顯看到,QNN 深度越深($L$ 越大的),其表現越接近經典方法(紅線)。 $L=5$ 的 QTRL 僅需 651 個參數,就在最後十次的平均表現超越經典方法。
QTRL CartPole

橫軸類似遊戲回合數,縱軸是該次回合獲得的 reward,紅線是經典方法的實驗結果,藍線 QTRL 方法,顏色越深代表 QNN 的深度越深

在 MiniGrid-Empty-5x5-v0 也觀察到類似的現象。深度最大的 QTRL,僅用 2529 個參數,在最後十次的平均 reward 與需要用到 4835 個參數的經典方法差不多。
QTRL MiniGrid

MiniGrid-Empty 環境下,經典與 QTRL 方法的訓練結果圖

QTRL MiniGrid

MiniGrid-Empty 環境下,經典與 QTRL 方法所需參數數量,以及最後十次訓練的平均積分(reward)

由上述兩個實驗,QTRL 相比經典方法,可以用更少的參數實現更有效率的強化學習,深度越大的 QNN,表現能接近甚至超越經典方法。這樣的特點可以拿來發展邊緣運算,利用此架構將模型放入移動式裝置中。 此外,QTRL 不需要 data encoding 層,因此電路大小與所需的 qubits 數,和輸入資料大小無關,不必擔心因為資料量太大使得量子電路大得不切實際,更不需要花費精力在複雜資料的 encoding 上。 最後一個也是這模型最大的特點,他可以不用在量子電腦上做計算,可以全部都在經典電腦上做訓練,這將大幅提升模型的可用性。像是在自動駕駛中,如果有一部分工作需要靠量子電腦,就要透過雲端將資料傳到某公司管理的量子電腦,排隊等待,算完之後傳回車子上,這將使得 QML 難以做到即時反應的需求,然而,QTRL 因為可以全部都在經典電腦上執行,將容易應用。
此文章僅作初步導讀,有更多內容在本文中沒有詳細提到,歡迎參看原論文
## 參考資料 - [強化學習簡介](https://www.youtube.com/watch?v=XWukX-ayIrs&list=PLJV_el3uVTsMhtt7_Y6sgTHGHp1Vb2P2J&index=29) - [Quantum Train 總覽](https://github.com/Hon-Hai-Quantum-Computing/QuantumTrain) - [arXiv:2407.06103 [quant-ph]](https://arxiv.org/abs/2407.06103)
陳世杰
陳世杰
LinkedIn
Entangletech 的實習生,興趣在於量子計算以及機器學習,也將繼續探索這兩個領域。
林昱誠
林昱誠
LinkedIn
林昱誠是 EntangleTech 技術長,同時也是一名藥師,研究所期間致力於藥物化學研究。2023 年 IBM 評選為臺灣第七個 Qiskit advocate,也是臺灣唯一一個非理工出身的 Qiskit advocate,致力於推廣量子計算應用於藥學與醫學領域。