600301 基於深度強化學習的智能存貨控制

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 34

Machine Translated by Google

國立政治大學資訊管理學系  

碩士學位論文  

指導教授:  莊皓鈞  博士  

政 治
立 大
基於深度強化學習的智能存貨控制:  
ñ 以高科技供應鏈為例  

一種深度強化學習方法 n r

在n
一個
高科技供應中的智能庫存控制
l 一世

CH和 nG C H
一世

鏈條

研究生:廖信堯  

中華民國一零九年二月  

DOI:10.6814/NCCU202000375
Machine Translated by Google

致謝

我要感謝所有給予我支持和鼓勵的人

為完成論文。本論文的任何貢獻都歸功於您的寶貴

幫助和刺激。

首先,我要衷心感謝我的導師  Dr.

Howard  Hao‑Chun  Chuang,感謝他對我的碩士論文的持續支持,感謝他的耐心,

動力、熱情和豐富的知識。他全程指導我

我對這篇論文的研究和寫作,使我的成就成為可能。大的

再次感謝他,沒有他,這項工作將永遠不會看到光明 政 治
今天。 立 大
此外,我衷心感謝周延春博士、楊瑞中博士和

塗玉菊博士。他們的建議和啟發幫助我重新審視我的研究,鞏固

為本文的研究奠定了基礎,並拓寬了我對該學科的認識。
ñ
衷心感謝在我研究中敬愛的同學和學者

實驗室的不斷支持、寬容和鼓勵。 n

r
在n
一個 一世
l
我還要感謝那些給我啟發的書籍和文章的作者
CH和n C H
一世

這篇論文的寫作。 G
最後但同樣重要的是,我的債務也延伸到我的家人和我的女朋友朵拉,

他們一生都在幫助、支持和照顧我。他們的支持和關心

激勵我堅持夢想,堅定不移地追求我的目標。

DOI:10.6814/NCCU202000375
Machine Translated by Google

抽象的

機器學習正在徹底改變各個行業的業務運營。之中

不同的學習技術,深度強化學習(DRL)
受到了廣泛關注

近年來,由於人工智能  (AI)  系統  AlphaGo  的突出表現

由  DRL  授權。  DRL  是一種無模型和數據驅動的方法,用於開發近乎最優的

順序決策問題的策略。對  DRL  在各種領域的成功感興趣

在本研究中,我們評估了  DRL  在多期庫存控制中的適用性

隨機需求,這是一個經典的馬爾可夫決策過程問題。與

全球最大的電子製造服務  (EMS)  分銷商,我們建議深

政 治
用於智能庫存控制  (IIC)  的  Q  網絡  (DQN)。面對不穩定和不穩定

市場生命週期有限的電子元器件需求,經銷商無法推斷 立 大
精確的需求分佈和分析解決庫存優化問題

具有銷售損失設置的有限範圍。因此,我們通過指定相關狀態和

決策輸入,然後設計一個數據驅動的模擬環境,其中代理
ñ
經過數千集的訓練。對於訓練過的項目,DQN  在一個方面優於基準

幾種方法。首先,DQN  可以減少至少  40%  的總庫存,同時實現更好的
n

r
在n
一個 一世
l 可以有效降低
服務水平。其次,當懲罰參數增加時,DQN  
CH和n C H 一世

G 在同一個項目中,
缺貨的數量。當我們將訓練好的  DQN  轉移到測試集中時,

樣本外的表現非常出色。對於其他看不見的項目,我們使用最大值

Entropy  Bootstrap  訓練集成  DDQN  並使我們的  DRL  代理更加健壯。鑑於

在我們的實驗中取得了有希望的結果,我們討論了影響、限制和進一步

將  DRL/DQN  應用於業務決策問題的方向。

關鍵詞:強化學習,深度學習,庫存優化,模擬,

運營管理

DOI:10.6814/NCCU202000375
Machine Translated by Google

內容

1.  簡介.................................................................. ..................................................... ....1

2。文獻綜述 .............................................. ................................................3

2.1  強化學習 ................................................... ..............................3

2.2  用於庫存控制的深度強化學習 ...................................................6

3.  深度強化學習代理............................................................ .............8

政 治
3.1  問題情境和仿真環境.........................................................8

立 大
3.2  用於庫存控制的深度  Q  網絡................................................................ .........10

4.  訓練表現和比較................................................................ .......15

4.1  RL  仿真設計和神經網絡架構調優 ....................................15
ñ
4.2  DRL  與  Benchmark  的比較......................................................  18
n

r
CH和n C H 在n
一個
5.  轉移訓練有素的代理的適用性................................................................21
一世
l
一世

5.1  同項後期遷移學習表現..........................21
G

5.2  在新的未見項目上的遷移學習表現..........................22

5.3  DDQN  與集成學習方法................................................................ ......24

6.  結論與討論................................................................ ..............................25

參考................................................. ..................................................... .......27

一世

DOI:10.6814/NCCU202000375
Machine Translated by Google

圖列表
圖  1:高科技供應鏈示意圖 ...................................................1

圖  2:RL  的代理和環境.......................... .....................3

圖  3:示例項目的需求實現......................................................... .........9

圖  4:用於庫存控制的深度  Q  網絡 ................................................... .....12

圖  5:用於庫存控制的雙深度  Q  網絡 ................................................14

圖  6:Double  Deep  Q‑Networks  的訓練過程......................................................14

政 治
圖  7:研究流程圖......................................................... ..............................15

立 大
圖  8:DQN  和  DDQN  的性能 ................................................... .............16

圖  9:DDQN  和BS  Policy  之間的比較......................................................18

圖  10:對LT、  LD和δ的敏感性分析...................................... ..........19

ñ
圖  11:  Optimal、  BS和  DDQN  策略之間的決策比較.....20

圖  12:同一項目後期的測試表現..........................21
n

r
CH和n C H 在n
一個
圖  13:不同政策做出的決定(LT=12)......................................................22
l 一世

一世

G .22
圖  14:新的未見項目的需求實現..........................  

圖  15:對新的未見項目的測試性能.......................... .....23

圖  16:不同政策對未見項目的決策(LT=12)............23

圖  17:訓練項目和模擬序列的需求實現............24

ii
DOI:10.6814/NCCU202000375
Machine Translated by Google

表列表

表  1:DRL  相關文獻回顧.......................... ......................8

表  2:RL  仿真環境設計................................................................ ............16

表  3:DDQN  的超參數 ................................................... ......................17

表  4:當LT等於  5 ..19時對區間和NN  結構的敏感性分析

表  5:不同策略之間的性能比較..........................20

表  6:單  DDQN  和  ensemble  DDQN  的性能比較............25

政 治
立 大

n

r
在n
一個 一世
l
CH和n C H 一世


DOI:10.6814/NCCU202000375
Machine Translated by Google

一、簡介

高科技供應鍊是一個資本密集型產業,尤其是半導體產業。

半導體行業的產品價值高,市場生命週期有限。這些

這些特點使半導體行業的庫存管理更加困難。

在高科技供應鏈中(見圖  1),分銷商是上游之間的橋樑

與下游並提供庫存對接服務,意味著他們的整個業務

圍繞庫存展開。分銷商的責任是確保每個請求

組件在正確的時間被運送到正確的地方。任何小的延遲到一個

組件可能會暫時停止整個生產,並導致巨大的收入損失和
政 治

客戶的不滿。對於分銷商來說,一個天真的想法是儲存更多庫存

出乎意料的未來請求,但倉庫空間有限,存儲意味著

持有成本的發生。因此,如何制定切實可行的訂貨政策就成了一個

高科技經銷商面臨的重要問題。

n
圖  1:高科技供應鏈示意圖

r
在n
一個 一世
l
在這項研究中,我們與最大的電子製造服務分銷商合作
H和nG C H C 一世

(EMS)  旨在製定最佳補貨政策以減少庫存

在不影響其服務水平的情況下。我們將庫存控制問題表述為

順序決策過程,通常稱為馬爾可夫決策過程

(MDP)。通常,MDP  可以通過動態規劃來解決,即劃分問題

成更簡單的子問題,但是高維狀態和動作空間,即詛咒

維數,導致經典動態規劃效率低下。但是,那

深度強化學習  (DRL)  解決了維度問題,它結合了深度

學習和強化學習(RL)。從  2015  年開始,DRL  吸引了公眾

主要歸功於  AlphaGo,這是一種由  DRL  授權的人工智能  (AI)  系統。

1
DOI:10.6814/NCCU202000375
Machine Translated by Google

除了遊戲,DRL在機器人、計算機等領域也有廣泛的應用

願景、財務等。因此,我們提出了一種用於智能庫存的  DRL  方法

控制(IIC)。具體來說,我們基於深度  Q  網絡  (DQN)  的  DRL  方法利用

神經網絡作為價值函數逼近器,然後設計數據驅動的模擬

環境通過指定相關的狀態和決策輸入。

我們很高興做出以下貢獻:(1)
我們提供概念證明

DRL,無需對需求結構做任何先驗假設,就可以應對庫存

隨機需求和銷售損失的現實世界環境中的問題。  (2)  通過增加

狀態和動作空間維度,我們構建了一個接近於
政 治

現實。  (3)  我們的  DRL  代理可以勝過公司目前使用的方法(基準)

通過減少總庫存和達到更高的服務水平來進行培訓和測試。  (4)  我們

設計缺貨懲罰機制,不僅減少庫存總量,

保持理想的服務水平和填充率。  (5)  同一範圍內的樣本外測試

項目,DRL  的表現是有前途的,並提供了體面的採購政策
ñ
經銷商。  (6)  對於未見項目的樣本外測試,我們提出了一種集成方法:
n
大大超過了我們的單一  DRL  代理。總的來說,我們的研究是對

r
在n
一個 一世
l
DRL  是否有資格作為難處理庫存的通用技術 CH和n C H 一世

G
補貨問題(Gijsbrechts  等人,2019  年)。通過對理論做出紮實的貢獻

和高科技供應鏈中的庫存控制實踐,我們的純數據驅動建模

努力旨在成為開發基於狀態的規範分析的原型示例

最先進的  DRL  技術。

本文的其餘部分的結構如下。第  2  節提供了一個簡短的總結

相關文獻和我們的貢獻。方法和算法的細節是

第  3  節介紹,第  4  節提供  DRL  代理的訓練性能。部分

圖  5  顯示了將訓練有素的代理轉移到測試項目和我們的集成模型的結果。在

2
DOI:10.6814/NCCU202000375
Machine Translated by Google

最後一部分,我們總結了整個研究並討論了影響,

限制,以及在庫存問題中應用  DRL  的進一步方向。

2。文獻綜述

2.1  強化學習

強化學習(Sutton  和  Barto,2018  年)
是機器學習的一個分支,它結合了

動態規劃和監督學習  (Gosavi,  2009)

解決  MDP  的強大框架,一種代表順序決策的類型

不確定性下的問題。  RL  已應用於多個領域,例如游戲(Silver

et  al.,  2017)、能源效率優化  (Qi  et  al.,  2016)  和庫存控制
政 治

(Oroojlooyjadid  等人,2019b)。這種方法是一種訓練代理學習最優

通過代理和環境之間的試錯交互來製定策略(參見圖  2)。

在每個時間步t  中,代理選擇一個動作,  ∈  ( )  (其中  ( )  是

當前狀態下可能的動作)
通過觀察當前狀態, ∈  (哪裡是集合

ñ
可能的狀態),獲得獎勵  ∈   ,然後環境隨機過渡到另一個

狀態,  +1 ∈ .轉移概率矩陣  ( , ),顯示轉換的概率

從狀態 至 +1採取行動
n ,  IE, ( ,

r
 )  =  Pr( +1 = |  = , =)。

CH和n C H 在n
一個 一世
l
相應地, ( , )  表示獎勵矩陣。  RL  算法的目標是 一世

G
通過確定策略來最大化折扣獎勵的預期總和, :  →


最大化  ∑ =0 [ ( ,  +1)] , 其中  =  ( )  和  0  ≤  ≤  1  是折扣

因素。

圖  2:RL  的代理和環境

3
DOI:10.6814/NCCU202000375
Machine Translated by Google

基於是否  ( ,  )  是已知的,RL  算法可以分為兩個子域:

基於模型和無模型的方法。在基於模型的方法中,我們可以獲得最優的

通過動態規劃制定策略,如價值迭代和策略迭代(Gosavi,2009),

或線性規劃(Sutton  和  Barto,2018  年)。然而,在現實中, ( ,  )  通常是

未知或難以估計。無需直接計算價值函數,無需模型

方法直接從與環境的試錯交互中學習並估計

通過隨機逼近的價值函數。通常,無模型方法通常是

如果您無法訪問環境的底層模型(Arulkumaran  等人,

2017)。

政 治
在無模型方法中,RL  算法可以進一步分為兩類:

政策內和政策外(Sutton  和  Barto,2018  年)。  RL  的框架中有兩個策略。

用於生成行為的一個稱為行為策略,另一個稱為評估

或改進稱為目標策略。  on‑policy  和  off‑policy  的區別

是它的行為和目標策略是否相同。策略上的方法試圖評估 ñ
行為策略與目標策略相同,而  off‑policy  方法將這兩者分開
n
政策。  off‑policy  方法的分離使他們能夠繼續採樣所有可能的

r
C SARSA  和  Q在 n 一個
l 一世

目標策略是確定性的(例如,貪婪的)
時採取的行動。   ‑learning  是
H和nG C H 一世

分別表示on‑policy和off‑policy方法。

Q‑Learning  是一種重要的  RL  算法,它通過獲取策略來解決  MDP

最大化任何  ∈  和  =  ( )  的  Q  值,即:

*  ( , )  =  最大值  [ + + 2
+ 3
+⋯  |  = , = , ] (1)
+1 +2 +3

計算   ( , ),我們使用貝爾曼方程將方程(1)
轉化為方程(2)

並解決  MDP  以獲得最佳決策。

  ( , )  =  max  [ +  γmax  ( )  |  = , = , ] (2)


+1,

4
DOI:10.6814/NCCU202000375
Machine Translated by Google

在學習之前,RL  代理初始化 ( , )  對於所有s和a具有初始值,然後

通過公式(3)
繼續更新,這是一種加權平均方法,由舊的

Q  值和學習  Q  值:

( , )  =  (1  ‑ )  ( , )  +  ( +1 +  γ  最大值  ( +1, )), ∀  =  1,2, ..., (3)

在哪裡 ( +1, )  是對最優未來價值的估計,並且 是學習率

時間步長t。然而,傳統的  RL  方法在以下情況下遭受維度災難

問題的狀態和動作空間很大。雖然利用其他功能

提出了近似值函數(Sutton  and  Barto,  2018),例如線性回歸,

非線性函數或神經網絡逼近器,這些逼近器有不穩定或
政 治
由序列中的非平穩性和相關性引起的發散  Q  值問題
立 大
觀察(Mnih  等人,2013  年)。因此,Mnih  等人。  (2015)  提出了一個開創性的深度  Q

網絡  (DQN)  算法,它結合了  Q‑learning  與深度神經網絡  (DNN)  和

體驗重放記憶(Lin,1992)。  DQN  將  DNN  作為價值函數逼近器
ñ
預測最優  Q  值:

( , )  ≈  ( , ; ) (4)

*
n

r 2
; )  
- ,∀  =  1,2, ...,
l   ( +1  +  γ  最大值  (
在n
=  最小  [ ( , 一個 +1, ;  一世
‑))] (5)
CH和n C H 一世

在哪裡 G這
( +1, ;  -)  由權重為-的目標網絡近似。

具有權重的評估網絡使用目標函數進行訓練,表示為方程

(5)。  Mnih  等人。  (2015)  實施了經驗回放記憶以降低相關性

依賴於時間的觀察並繼續對其新行為進行訓練。此外,他們使用

貪婪的方法:選擇貪婪的動作,即, = ( )  和
+1 +1,

概率  1  ‑ , 或以概率選擇隨機動作 在時間t,增強

代理的探索能力。

5
DOI:10.6814/NCCU202000375
Machine Translated by Google

2.2  庫存控制的深度強化學習

庫存控制通常由希望最大化利潤的公司進行

在不影響服務水平的情況下保持最少的庫存量。在供應鏈中

網絡,有不同的玩家,每個人都必須決定他們的庫存

補貨政策(Giannoccaro  和  Pontrandolfo,2002  年)。我們的研究位於十字路口

在庫存控制、機器學習和強化學習之間。有大量的前期研究

上述域中的每一個。因此,我們不是分別回顧每個主題,而是

本節只討論最相關的文獻。

Giannoccaro  和  Pontrandolfo  (2002)  是最早應用  RL  算法解決
政 治
連續供應鏈中的庫存問題。他們使用半馬爾可夫平均獎勵技術

為具有三個面臨隨機供應的代理的供應鏈系統做出訂購決策
立 大
交貨時間和需求。查哈蘇吉等人。  (2008)  考慮一個有四個代理的環境

和有限的時間範圍,並提出了一種基於  Q‑learning  的排序決策算法。

兩項研究都報告說  RL  算法提供了具有競爭力的結果。然而,經典的強化學習
ñ
算法受限於狀態空間和動作空間的大尺寸,這使得應用

RL  對庫存控制的關注有限。
n

r
在n
一個 一世
l
C H和nG C H
最近的進展,例如在  DRL  發布中使用深度神經網絡作為函數逼近器 一世

限制並增強RL的適用性。據我們所知,只有

Oroojlooyjadid  等人。  (2019b)  和  Gijsbrechts  等人。  (2019)  開發了用於庫存的  DRL  代理

控制問題。  Oroojlooyjadid  等人。  (2019b)  替換啤酒遊戲中的代理人i

具有  DQN  代理的供應鏈,而其他代理遵循基本庫存政策(理性)

斯特曼公式(非理性)。他們的模擬環境由定義的狀態變量組成

作為代理i的最後m個觀察週期,  d+x規則(x在某些有界數中)
對於

行動空間,獎勵函數定義為缺貨和持有成本的總和

代理。此外,他們提出了一個懲罰程序來通知  DQN  代理關於本地

成本(DQN  代理)
和全局成本(所有代理)。他們表明  DQN  代理優於其他

6
DOI:10.6814/NCCU202000375
Machine Translated by Google

最小化總供應鏈成本的政策。  Gijsbrechts  等人。  (2019)  顯示如何

可實施DRL,解決雙源、流失、多級庫存

問題。通過分配庫存水平和積壓作為狀態變量,所有可能的數量

來自不同供應商的作為行動空間,採購和持有成本的總和作為獎勵

功能,他們提出了一種異步優勢演員評論家(A3C)
算法並比較

它對顯著的政策和啟發式的表現。他們的結果表明,DRL  代理達到

示例問題中相當小的最優性差距,但似乎不是最好的

測試策略/啟發式中的執行者。

出於通過  DRL  算法解決庫存控制問題的相同目標,我們的
政 治
立 大
研究與  Oroojlooyjadid  等人的研究有很大不同。  (2019b)  和  Gijsbrechts  等人。  (2019)

在幾個方面(見表  1)。首先,兩項研究都假設需求是一個獨立且

服從概率分佈的同分佈(iid)
隨機變量,例如

伽馬分佈或均勻分佈。很難在  EMS  中推斷出該假設

部門。因此,我們讓  DRL  代理直接從嘈雜的需求信號中學習,而不是
ñ
而不是對需求結構強加任何參數假設。二、而不是限制
n
在一些小數量的行動空間中,我們通過將訂單數量設置為來釋放約束

r
在n
一個 一世
l
數万/數十萬,並為我們的模型開髮帶來嚴重挑戰。第三, CH和n C H 一世

G
由於直接從真實數據集中檢索到有限的訓練期,我們的  DRL  代理只能交互

每集有  96  個週期的環境,這使得代理訓練更加困難。

此外,與  Oroojlooyjadid  等人不同。  (2019b),銷售損失 特定時期未滿足的需求

未來無法實現 是我們研究的一個主要情況。這個約束意味著

缺貨比持有庫存更重要,增加了建模的難度。

用更現實的假設來解決有限範圍的銷售庫存損失問題

需求和可能的行動,我們嘗試通過  DRL  技術開發原型分析

並評估為從業者部署  DRL  代理的可行性和價值。

7
DOI:10.6814/NCCU202000375
Machine Translated by Google

表  1:DRL  相關文獻回顧

政 治
立 大
3.  深度強化學習代理
3.1  問題情境與仿真環境

根據對採購高管的採訪,我們了解到一些繼承

ñ
EMS的特點。首先,多期庫存問題是一個具有有限的  MDP

地平線失去銷售設置。二、EMS客戶需求隨機,供應領先
n
時間 下訂單後收到貨物的周數 是穩定的。訓練  DRL

r
在n
一個 一世
l
採購代理,我們要先構建模擬環境。等式  (6)  ‑  (11) CH和n C H 一世

G
在仿真程序中顯示庫存控制系統的物理特性。下面我們解釋

他們每個人。

等式  (6)  表明,在周期/週t  中,開始在手  ( )  庫存是結束

前一周的現有(EOH)庫存 ‑1。 由於每週的決定

製造商決定訂貨量 LT後到達經銷商倉庫

(供應提前期)
週,第t週收到的訂單( )  恰好是q放置在周期t‑LT

1(如等式(7)
所示)。然後隨機需求來了,公司更新了它的

等式  (8)  中的EOH和等式  (9 )  中的缺貨(OOS )。等式  (10)  顯示了

周積壓( )  等於前一周的周初積壓  ( -1)減

8
DOI:10.6814/NCCU202000375
Machine Translated by Google

前一周已經收到貨物( -1),加上前一個下的訂單

週( ‑1)。最後,我們在公式  (11)  中計算可用庫存  ( )/庫存頭寸

等於EOH和周初在途庫存的總和 減訂單

收到這個期間。
= (6)
‑1

= ..  (7)
‑  ‑1

=  ( +  ‑ ,  0) (8)

= ‑
( ‑ ,  0) (9)

= ‑
‑1 +   (10)
政 治
‑1 ‑1

立 大
= + (11)

庫存系統的不確定性源於未知的需求實現 .

穩定但較長的交貨期LT會加劇問題,因為預測所有不確定的需求

*
實現 在等式(12)
中確定確切的最佳訂貨量 沒有

ñ
指輕而易舉的任務。我們沒有對隨機變量D施加參數假設,而是

使用隨機需求時間序列作為等式  (8)  的原始輸入,以在

決策環境。圖  3  顯示了一個示例項目的需求數據
n

r
在n
一個 一世
l
我們的初步分析。時間序列中的非平穩性讓人無法計算 CH和n C H 一世

G
最優訂單數量,因此我們提出了一種  DRL  方法來解決這個決策問題。
* = +  
+  +1 ‑  最大(0,  ‑  ∑ =  +1 ) (12)

圖  3:示例項目的需求實現

9
DOI:10.6814/NCCU202000375
Machine Translated by Google

我們的  DRL  代理的目標是找出一個補充策略來識別 這樣的

可以最小化T個週期內的EOH和OOS的總和,如等式(13)
所示。

該參數是OOS的非負懲罰項,以幫助  DRL  代理取得平衡

在持有庫存和導致缺貨之間。此外,我們監控服務水平(SL )

等式  (14),其中Ind  ( )  如果輸入為真則返回  1,否則返回  0。 表示

所需的填充率,即生產需求的比例應該滿足 和

.  SL告知決策者能夠滿足的可能性 超過T週。

∑  ( =1 + ) (13)
+
∑ =1  ( ≥
)
政 治
= (14)

3.2  用於庫存控制的深度  Q  網絡
立 大
在說明問題情況和仿真環境後,本節我們將描述

我們如何為訂單決策開發深度  Q  網絡  (DQN)。每個  RL  代理都經過

與動態環境的試錯交互。每次代理選擇一個
ñ
給定當前狀態的動作,它會從環境中獲得獎勵。那麼,由於隨機

在我們的案例中實現了需求,環境過渡到下一個狀態。通過收集

狀態‑動作對和相應獎勵的歷史,代理學習如何做出決策
n

r
在n
一個 一世
l

在各種情況下,即不同的狀態值。狀態和動作空間的細節,
CH n C H 一世

G
獎勵函數和  DRL  算法定義如下。

狀態變量:我們包括本週的現有庫存,庫存

過境  ( ‑ ,  ‑  +1, ... ,  ‑1),最近幾週的需求實現  ( ‑  +1, ...,  ‑1, )

和時間效應( 和時間戳t)  在狀態變量和顯示 作為

( , ,  ‑ ,  ‑  +1, ... ,  ‑1,  ‑  +1, ...,  ‑1, , , ),  其中LT是供給

提前期和LD是需求歷史的長度。

獎勵功能:獎勵功能是驅動智能體的關鍵

行為。在每個時期/週t  中,代理觀察狀態變量 並採取行動;

10
DOI:10.6814/NCCU202000375
Machine Translated by Google

我們將獎勵結構設置為 衡量行動的好壞,其中  =

( +1 +  *  +   +  +1)是缺貨的懲罰參數。請注意,我們

使用t+LT+1期間EOH和OOS的值,因為 不會直接影響系統

直到那個時期的表現。

行動空間:此  MDP  問題中可能的行動數量或訂單數量

是無限的。為了使  DQN  正常運行,我們離散化動作空間並設置一個上限

限制數量, , 以及動作的粒度、間隔,以生成可能的動作選擇

如1 =  0, =  ( /間隔1)*1,  3  =  ( /interval-1)     2,  ⋯ , =


2

區間越大,可能動作的自由度越大。然而,這來了
政 治
以增加神經網絡中輸出節點和參數的數量為代價,使得

DRL  代理更難訓練。
立 大
DQN  和  DDQN  算法:在定義了狀態、動作和獎勵之後,我們提出了我們的

圖  4  中用於庫存控制的  DQN  算法。我們的  DRL  代理的目標是學習一個

旨在最小化(而不是最大化)
累積的接近最優策略 ñ
折扣獎勵(見公式(13))。首先,我們初始化我們評估的所有權重

網絡( )
和目標網絡( ‑ )
到隨機數
n

r
, 其中~(0,0.1)。然後,

在n
一個 一世
l
算法從一個外部for循環開始,該循環要求代理了解要訂購多少 CH和n C H 一世

G
n集。對於每一集,我們重置內存緩衝區並將所有狀態變量初始化為  ‑1

(因為在第  0  期沒有觀察到)。之後,我們進入一個內部for循環

T期/週。在每個時期t,代理收到先前的訂單數量  ( ),滿足

隨機需求 , 並採取行動。隨後,環境過渡到新的

狀態 +1。在T個週期內,智能體不斷與環境交互並存儲

標準化經驗, IE  [
, , ,
+1 ] , 進入內存緩衝區 , 在哪裡

包括  { ‑ , ... , }  和 是內存緩衝區的大小。在這裡,我們將體驗標準化

經過 解決不同item的scaling問題,增強泛化性

11
DOI:10.6814/NCCU202000375
Machine Translated by Google

我們的  DRL  代理。請注意,為了平衡此  MDP  中的探索‑開發權衡,我們

採用貪心策略確保  DQN  代理有概率選擇一個動作

隨機(探索)
並隨著代理隨著時間的推移而衰減。

用於庫存控制的算法深度  Q  網絡

..1:程序  DQN ..2:  for  
Episode  =  1 :  n  do  (模擬庫存控製過程)
..3: 初始化體驗回放記憶,  E  =  [ ]
..4: 重置BOH、  EOH和積壓工作
..5: 對於t  =  1 :  T做

..6: 以概率ε隨機採取行動

..7: 否則設置at=  argmin  ( , , )

政 治
..8:

..9: 立
在  at執行動作,進入狀態st+1,並收集獎勵rt
將(st,  at,  rt,  st+1)添加到E 大
10: 從E中獲取一小批經驗(sj、  aj、  rj、  sj+1)

11: 設置  =  +  *  min  ( , ;  ‑) < , =

12: 在具有損失函數  ( ‑  ( ,
2
13: ñ ; )) 更新
14: 每C次迭代,設置‑ =

15: 結束
16: 調整e
n

r
在n
一個 一世
17:結束 l
CH和n C H 一世

18:結束程序
G
圖  4:用於庫存控制的深度  Q  網絡

當內存緩衝區滿時,代理分別執行兩個任務。一是保持

通過先進先出  (FIFO)  方法更新內存緩衝區,另一種是對  mini  進行採樣

隨機批量訓練評估網絡  ( )  (Lin,  1992)。隨機抽樣方法

打破了與時間相關的觀察之間的相關性,減少了

近似值  (Mnih  et  al.,  2013),並防止神經網絡成為

發散逼近器(Minh  et  al.,  2015)。優先體驗重播(Schaul  等人,

2015)
是採樣經驗的另一種選擇,但是,考慮到連續非零

在我們的模擬中,隨機抽樣和優先抽樣可能沒有區別。

12
DOI:10.6814/NCCU202000375
Machine Translated by Google

評估網絡  ( )  試圖找到權重以最小化均方誤差  (MSE)

Q  (s,  a; )和 , 哪裡是從目標獲得的  Q  值的預測

網絡( ‑)。這是通過在  mini  上運行一次前向傳播和反向傳播來完成的

批次樣品。在每一集的迭代訓練過程中,目標的權重

每C次迭代,網絡將被評估網絡的權重替換。

儘管  DQN  的結構是創新的,但  DRL  文獻  (Van  Hasselt  et  al.,  2015)

報告  DQN  通過貪婪策略逼近目標  Q  值,這可能導致

在我們的模擬中低估了非最優動作的  Q  值。因此,我們輕描淡寫

Van  Hasselt  等人對  DQN  的有效修改。  (2015)
誰提出了雙
政 治

DQN  (DDQN)  算法使用評估  ( )  和目標  ( ‑)  網絡來確定

如圖  5  和  6  所示。具體來說,我們首先使用評估網絡選擇最佳

為下一個狀態採取的行動,即 ( +1; )  =  argmin  ( +1, , ) 。然後我們

代替 =  +  * ( , ;  ‑) 在 圖  4  與 =  +  *


ñ
( +1, ( +1; );  ‑)。  DDQN  算法的其餘部分未分化為

DQN  算法。如果  Q  值表現出收斂性並且  MSE  值在n次發作後穩定,
n

r
圖  5  中用於庫存控制的  DRL  將產生一個智能代理 評估
在n
一個 一世
l
CH和n C H 一世

網絡  ( )  –  用於採購決策。研究流程圖合併於 G
圖  7.  我們已經解釋了我們的模擬和環境。在接下來的部分中,我們

展示我們的訓練表現和样本外測試。

13
DOI:10.6814/NCCU202000375
Machine Translated by Google

用於庫存控制的算法Double  Deep  Q‑Networks

..1:程序  DDQN ..2:  for  
Episode  =  1 :  n  do  (模擬庫存控製過程)
..3: 初始化體驗回放記憶,  E  =  [ ]
..4: 重置BOH、  EOH和積壓工作
..5: 對於t  =  1 :  T做
..6: 以概率ε隨機採取行動

..7: 否則設置at=  argmin  ( , , )

..8: 在  at執行動作,進入狀態st+1,並收集獎勵rt
..9: 將(st,  at,  rt,  st+1)添加到E
10: 從E中獲取一小批經驗(sj、  aj、  rj、  sj+1)

11: 定義
政 治
( +1; )  =  argmin  ( +1, , )

12:

13:
設置  =  +  *  ( +1,

在具有損失函數  ( ‑  ( ,
立 ( +1; );  ‑)
大 < , =

2
14: ; )) 更新
15: 每C次迭代,設置‑ =

16: 結束
17: 調整e
ñ
18:結束

19:結束程序
圖  5:用於庫存控制的雙深度  Q  網絡
n

r
在n
一個 一世
l
CH和n C H 一世

圖  6:Double  Deep  Q‑Networks  的訓練過程

14
DOI:10.6814/NCCU202000375
Machine Translated by Google

政 治
立 大

ñ
圖  7:研究流程圖

4.  訓練表現和比較
n

r
我們使用所選項目的前  70  週需求(見圖  
一個
l
C 3)來訓練我們的  在 n代理,
DRL  
一世

H和nG C H一世

剩下的  26  周用於樣本外測試。我們的模擬環境是

根據採訪設計,盡可能貼近實際業務情況

採購主管。

4.1  RL  仿真設計和神經網絡架構調優

根據我們對  IIC  的了解和信息,我們建立了我們的環境

參數如表2所示。最小和最大可能的訂購數量, ,

, 和interval,通過分組連續訂購數量的分箱數,定義

DRL  的動作空間。此外,缺貨的懲罰參數  使我們能夠

維持在理想的SL和FR。並且,DRL的狀態變量的大小與長度有關

15
DOI:10.6814/NCCU202000375
Machine Translated by Google

供應提前期(LT)和歷史需求(LD)。所需的填充率, , 已經

在上一節中定義。

表  2:RL  仿真環境設計

建立模擬環境後,我們開始訓練我們的  DRL  代理。然而,

在致力於調整模型性能之前,我們希望確保我們提出的
政 治
算法能夠學習接近最優的策略。理論上,我們的代理人應該

在最佳情節中經常選擇獎勵最低的動作。因此,我們試圖
立 大
通過一致地分配具有零獎勵的可能動作之一來驗證該理論,並且

在圖  8  中繪製兩種算法每集的訓練損失和獎勵。該圖顯示

這兩種算法都從我們的模擬環境中學習了接近最優的策略。經過考慮的
ñ
訓練損失的穩定性和低估非最優動作的Q值的問題,
n
我們最終選擇  DDQN  而不是  DQN,並將其性能與其他策略進行比較

r
在n
一個 一世
l
以下部分。 CH和n C H 一世

(a)  每集的訓練損失 (b)  每集訓練獎勵

圖  8:DQN  和  DDQN  的性能

16
DOI:10.6814/NCCU202000375
Machine Translated by Google

為了訓練我們的  DRL  代理,需要分配一些  DDQN  的超參數

預先。然而,要確定  DDQN  的超參數的合適值是非

瑣碎而耗時的任務,更不用說評估所有可能的組合是

計算成本高。因此,我們在每個重要的超參數上定義網格空間

並利用網格搜索在每個實驗中找到好的超參數集。具體來說,我們

首先通過修復其他超參數來逐個測試每個超參數以找到重要的參數,(即,學習

率、更新頻率和批量大小),用於模型性能。然後,我們探索組合

在總共  288  個場景的三個重要超參數中,修復了其他

超參數(神經網絡結構  =  S,激活函數  =  ReLU,內存緩衝區
政 治

大小  =  40,伽馬  =  0.99)。在確定了  288  個測試用例中的最佳場景後,我們

然後反複測試固定超參數的不同值,完成網格搜索。

由於存在無限的選擇來設計神經網絡結構,我們選擇了四種不同的

我們標記為小型、中型、大型和超大型的配置。每個  DNN  網絡都是

所有全連接網絡,並具有具有  ReLU  激活功能的隱藏層。在默認
ñ
模擬環境的設置,我們觀察到良好的性能和高效率
n
超參數集顯示在表  3  中。為了優化神經網絡,我們利用  Adam

r
一個
l
C 5,學習率為  0.0005, n一世

在並訓練我們的  
H和nG C H
優化器  (Kingma  and  Ba,  2017),批量大小為   一世 DRL

代理  8,000  集  =  0.9  並通過集線性減少到  0.05。所有的

以下計算和實驗是在  12  核和  64  GB  的節點上完成的

PyTorch  1.1  的內存。

表  3:DDQN  的超參數

17
DOI:10.6814/NCCU202000375
Machine Translated by Google

4.2  DRL  與  Benchmark  的比較

為了評估我們的  DRL  代理的性能,我們選擇了一個基線策略(BS  策略)

目前在合作公司中實施作為我們的基準,如公式(15)
所示。

與BS  政策相比,我們只關注平均總庫存、平均EOH、

平均OOS、  SL  (等式(14))
和FR ,其定義為等式(16)。

= (15)
(( ∑  =  -  +1   )  ×  -  ,  
‑1
=  +1
‑1 (16)
=  1  ‑  ( ∑ ∑ =  
+1 0) )

根據公司內部預測分析,我們在BS政策中設定=8。在

圖  9,從初步訓練結果來看,我們認為我們的  DDQN  代理優於BS 政 治

政策在幾個方面。首先,當懲罰參數  ( )  等於  1  時,我們的  DDQN  代理可以 大
將平均EOH和平均OOS水平分別降低  89%  和  34%,並實現

FR高於BS  政策。二是隨著人數的增加 , 我們的  DDQN  擁有更多的平均EOH

以避免發生缺貨。等於10時,即1個單位OOS等於10個單位
ñ
在EOH  中,  DDQN  代理持有的平均EOH低於BS  策略,但達到  89%的SL

平均OOS減少  89% 。因此,在訓練階段,DDQN  優於BS
n

r
在n
一個 一世
政策並在增加的同時表現得更好。l
CH和n C H 一世

圖  9:DDQN  和BS  Policy的比較

18
DOI:10.6814/NCCU202000375
Machine Translated by Google

此外,我們對供應等環境參數進行了一些敏感性分析

提前期(LT)、需求歷史的長度(LD)和行動空間(Interval),以及

將結果匯總如下。在圖  10  中,當LT增加時,  DDQN的SL

with  =  1  下降,但DDQN  with  =  10的SL保持穩定並超過BS

policy但是,  LD似乎對  DDQN  的性能沒有影響。

政 治

圖  10:對LT、  LD和δ的敏感性分析

在表  2  中我們默認的模擬環境設計中,可能的操作數

DDQN  只有  21。在表  4  中,我們通過增加間隔和

比較其在不同神經網絡結構中的表現。結果暗示自由度
ñ
行動不是影響  DRL  績效的重要因素。一個可能的原因是

使神經網絡難以收斂的權重數量。
n

r
在n
一個 一世
l
表4:  LT  =5時區間和NN結構的敏感性分析

CH n C H 一世

19
DOI:10.6814/NCCU202000375
Machine Translated by Google

我們已經知道  DDQN在默認環境設置中的性能優於BS  Policy 。在

表  5,我們進一步比較了它在不同LT上的表現,並鞏固了五個顯著的

不同排序策略的索引。隨著LT  的增加,  DDQN  始終保持高位

優於BS  Policy。  In  =  12,DDQN  不僅將平均成本和OOS保持在較低水平

水平(比BS  Policy  低  68%  和  86%) ,但也維持接近  90%  SL和  97%  FR。

表  5:不同策略之間的性能比較

政 治
立 大
總的來說,上面的分析表明我們的  DRL  代理可以被訓練成

訂購決定。然後,我們回顧了在LT等於時由不同策略做出的這些決定

12  通過繪製圖  11  中的折線圖。  Optimal  Policy表示補貨策略
ñ
當我們有關於未來需求和訂單數量的完美信息時,  t被定義為

如等式(12)
所示。我們觀察到黃線(DDQN  策略)
更接近藍線
n r

在n
一個 一世
l Policy的相關係數
(最優策略)。最優策略間DDQN與BS  
CH和n C H 一世

G
分別為  0.025  和  0.3。這意味著  DDQN  更像是一個比BS更接近最優的策略

政策

圖  11:  Optimal、  BS和  DDQN  策略之間的決策比較

20
DOI:10.6814/NCCU202000375
Machine Translated by Google

5.轉移訓練有素的代理的適用性
在本節中,我們將訓練好的  DRL  代理轉移到兩種情況:轉移到後者

同一項目的期間並轉移到新的看不見的項目。我們也嘗試探索

通過添加集成技術,DRL  在庫存控制問題上的潛力和能力。

5.1  同項目後期遷移學習表現

在圖  12  中,我們展示了  DDQN  和BS  策略在不同LT  上的測試結果。而LT

增加,  BS  政策傾向於持有更多庫存以實現理想的SL。平均EOH

BS  政策增加了  39%  和  237%,而LT分別等於  9  和  12。然而,

我們的  DRL  代理在各個方面都優於BS  策略在不同的LT上。  DDQN  不僅減少
政 治

總庫存也達到  100%  SL和FR。與BS  策略相比,  DDQNs

=  1  實現  100%  SL和FR,平均EOH降低13%、62%  和  393%,而LT

分別等於  5、9  和  12。雖然等於  10,但測試結果與

上述結果。如圖  12  所示的結果,我們證明了我們訓練的  DDQN

可以成功轉移到同一項目的後期,這意味著  DRL  可以
ñ
幫助從業者在收集時為不同物品製定更好的庫存策略

足夠的歷史數據。
n

r
在n
一個 一世
l
CH和n C H 一世

圖  12:同項後期測試表現

21
DOI:10.6814/NCCU202000375
Machine Translated by Google

此外,在圖  13  中,我們繪製了不同策略的訂購數量

而LT等於  12。我們注意到BS  Policy只訂購了兩次,數量巨大,而且

DDQN  傾向於頻繁訂購足夠數量,這可以解釋為什麼  DDQN

表現優於BS  Policy每週做出的比較決策、訂單數量

DDQN  更接近最優策略的最優數量。樣本外

DDQN  的表現令人鼓舞,並為客戶提供了體面的採購政策

經銷商。

政 治
立 大
圖  13:不同政策做出的決定(LT=12)

5.2  新看不見項目的遷移學習表現
ñ
我們還將我們訓練有素的  DRL  代理轉移到看不見的項目中,例如顯示在

圖  14.  這個項目是一個  96  週的時間序列,具有完全不同的需求模式
n r

在n
一個 一世
作為示例項目,這增加了遷移學習的難度。 l
CH和n C H 一世

圖  14:新的未見項目的需求實現

我們將  DDQNs  和BS  Policy在不同LT上的測試結果合併為圖  15。

在  =  5  的情況下,DDQN  在總庫存上的表現優於BS  Policy ,但它們實現了

22
DOI:10.6814/NCCU202000375
Machine Translated by Google

即使很大,  SL和FR也很低。  BS  Policy的總庫存增加了  61%  和

156%,而LT等於  9  和  12,但BS  Policy保持穩定的SL和FR。我們的  DDQN

當LT增加時,總庫存表現更穩定,但它們的SL和FR較低。這

測試結果不如第  4  節中描述的訓練結果。

政 治
立 大
圖  15:新的未見項目的測試性能

我們在圖  16  中繪製了不同策略的訂購數量折線圖。

ñ
保單訂購頻率較低,但訂購量很大以滿足未來需求,而

與BS  Policy相比,DDQN  的訂購量往往更少但更頻繁。基於數量的差距
n
然而,在  DDQN  和Optimal  Policy之間,我們的  DDQN  訂單數量不足,無法履行

r
在n
一個 一世
l
C H和nG C H
即將到來的需求。  BS  Policy和  DDQN之間的差異反映了兩者的總和 一世

庫存和SL。總體而言,它表明  DRL  在未見項目上的遷移學習更多

基於單個  DDQN  的困難和挑戰。

圖  16:不同政策對未見項目的決策(LT=12)

23
DOI:10.6814/NCCU202000375
Machine Translated by Google

5.3  DDQN  與集成學習方法

在  5.2  節中,我們只用一個時間序列序列訓練了我們的  DRL  代理,並且

根據樣本外的表現,訓練有素的代理的轉移並不理想。儘管

我們訓練了我們的代理數千集,對模擬環境的探索可能

不足以讓  DRL  代理在看不見的項目上表現良好。為了增加

我們的  DDQN  的泛化性,我們利用最大熵引導  (MEBoot)  (Vinod

和  Lòpez‑de‑Lacalle,2009  年)
在訓練的基礎上模擬其他  19  個時間序列序列

項目觀察(見圖  17)。有許多采樣技術,例如隨機

抽樣和分層抽樣,但由於時間相關,我們選擇  MEBoot
政 治

我們的需求順序的關係。  MEBoot  是一種避免不必要的算法

分佈假設並為時間序列推斷創建一個集合。為了減少

DDQN  的  Q  值估計的方差並使我們的代理更健壯,我們訓練

多個/集成  DDQN  而不是單個  DDQN。

n

r
在n
一個 一世
l
CH和n C H 一世

圖  17:訓練項目和模擬序列的需求實現

通過MEBoot從原始序列模擬19次,我們有20個時間序列

序列,對於每個時間序列,我們將環境設置為默認設置,我們的

表  3  中具有相同超參數的  DDQN。然後,我們為一個時間序列訓練一個代理

24
DOI:10.6814/NCCU202000375
Machine Translated by Google

分別存儲每個序列中性能最好的神經網絡。

這  20  個時間序列序列之間的差異使每個智能體可以探索更多

模擬環境的可能性。當代理在期間做出訂購決定時

測試,對於每個動作,我們取  20  個  DDQN  代理的平均  Q  值並選擇動作

具有最小的平均  Q  值。

單個和集成  DDQN  的樣本外性能合併為表

6.我們已經知道單個DDQN的測試結果不如訓練結果

在第  4  節中描述,但集成  DDQN  可以勝過BS  Policy和單個  DDQN。

當  =  10 , 單個  DDQN  的性能並不理想,但是  ensemble  DDQN
政 治

優於其他政策。  Ensemble  DDQN  擁有BS平均EOH的近一半

策略和只招致單個  DDQN  平均OOS的  38%,但  ensemble  DDQN  可以

達到  82%  SL和  90%  FR。這些結果意味著我們成功地轉移了我們訓練有素的代理

在新的看不見的項目上。我們得出結論,我們的合奏技術是有效的,我們的合奏

DDQN  可能會降低最優  Q  值估計的方差並增加
ñ
我們的  DRL  代理的普遍性和魯棒性。
n
表  6:單  DDQN  和  ensemble  DDQN  的性能比較

r
在n
一個 一世
l
CH和n C H 一世

6.  結論與討論

在本文中,我們正式評估如何使用  DRL  訓練智能採購代理

算法和嘈雜的需求數據。我們將庫存控制問題作為單一的

在具有隨機需求和銷售損失的現實環境中進行代理庫存控制。這

提議的  DDQN  顯著優於基準  ‑  當前使用的採購政策

25
DOI:10.6814/NCCU202000375
Machine Translated by Google

由經銷商。  DDQN  能夠降低近  50%  的庫存水平

為測試項目實現更高的SL 。更重要的是,看到不滿意

將  DDQN  的學習遷移到看不見的項目,我們開發了一種集成技術,

大大提高了庫存績效。我們認為  DRL  代理可以幫助從業者

制定更好的補貨政策並協助他們確定訂單數量。

根據我們在分銷商的初步測試,我們表明  IIC  的  DRL  有潛力

在選定項目需求實現的情況下解決實際庫存問題。比較的

在先前的研究中,我們的研究對需求結構沒有參數假設,並且讓

DRL  代理直接從嘈雜的需求信號中學習。此外,我們釋放約束
政 治

小動作和狀態空間,並考慮有限範圍和銷售損失。雖然發布

複雜的情況給我們的模型開發、性能帶來了嚴峻的挑戰

我們的  DRL  代理證明我們提出的算法可以有效地解決高維狀態

和行動空間,並在  IIC  問題中提供實用的排序策略。通過導航

ñ
在真實的業務環境中將尖端的人工智能開發應用到庫存控制中,我們的

建模工作期望對理論和實踐做出不平凡的貢獻
n
高科技供應鏈中的採購業務。開發  DRL  的基本要素

r
在n
一個 一世
l
採購代理為學術界和工業界提供了寶貴的經驗和新的見解 CH和n C H 一世

G
社區。

最後,與其他機器學習算法一樣,我們的  DRL  解決方案也存在一些局限性。

首先,DRL的神經網絡調優是費力的,沒有人會認為這是一件容易的事

任務。在這項研究中,我們只嘗試了一種網格搜索方法,而不是探索其他超參數

優化技術,例如隨機搜索或遺傳算法。另一種可能

這項研究的擴展是增加處理連續動作空間的能力。我們

離散在  DDQN  中計算  Q  值的可能動作空間,但是一些  DRL  算法,

像策略梯度一樣,可以直接處理連續動作空間。

26
DOI:10.6814/NCCU202000375
Machine Translated by Google

參考

Arulkumaran,  K.,  Deisenroth,  P.,  Brundage,  M.,  &  Bharath,  A.  (2017)。

深度強化學習。  ArXiv:1708  05866v2

Chaharsooghi,  S.,  Heydari,  J.,  &  Zegordi,  S.  (2008)  供應的強化學習模型

連鎖訂購管理:啤酒遊戲的應用。決策支持系統,

45(4):949‑959。

Chollet,  F.  (2017)使用  Python  進行深度學習。曼寧出版社。

Giannoccaro,  I.  和  Pontrandolfo,  P.  (2002)  供應鏈中的庫存管理:A

強化學習方法。國際生產經濟學雜誌,  78(2):
政 治
立 大
153‑161。

Gijsbrechts,  J.、Boute,  R.、Zhang,  D.  和  Van  Mieghem,  J.  (2019)  Can  Deep  Reinforcement

學習改善庫存管理?雙重採購績效,銷售損失

和 多梯隊 問題。 可用的 在 SSRN

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3302881。
ñ
Gosavi,  A.  (2009)  強化學習:教程調查和最新進展。通知

計算雜誌,  21(3):177‑345。
n

r
在n
一個 一世
l
Kingma,  DP,  &  Ba,  J.  (2017)。亞當:隨機方法 CH和n C H 一世

G
優化。  ArXiv:1412  6980v9。

Lin,  LJ  (1992)  基於強化學習、規劃和

教學。機器學習,  8(3‑4):293‑321。

Mnih  V.,  Kavukcuoglu,  K.,  Silver,  D.,  Graves,  A.,  Antonoglou,  I.,  Wierstra,  D.,  &  Riedmiller,

M.  (2013)  使用深度強化學習玩  Atari。  ArXiv:1312  5602v1

Mnih,  V.,  Kavukcuoglu,  K.,  Silver,  D.,  Rusu,  AA,  Veness,  J.,  Bellemare,  MG,  Graves,  A.,

Riedmiller,  M.,  Fidjeland,  AK,  &  Ostrovski,  G.,  Petersen,  S.,  Beattie,  C.,  Sadik,  A.,

Antonoglou,  I.、King,  H.、Kumaran,  D.、Wierstra,  D.、Legg,  S.  和  Hassabis,  D.  (2015)

通過深度強化學習進行人工控制。自然,  518:529‑533。

27
DOI:10.6814/NCCU202000375
Machine Translated by Google

Oroojlooyjadid,  A.、Snyder,  L.  和  Taka ,  M.  (2019)  將深度學習應用於報攤

問題。  IISE  交易,印刷中。

Oroojlooyjadid,  A.、Nazari,  M.、Snyder,  L.  和  Taká ,  M.  (2019b)  用於

啤酒遊戲:解決庫存優化的深度強化學習算法

問題。  ArXiv:1708  05924v3

Porteus,  EL  (2002)隨機庫存理論的基礎。斯坦福大學出版社,

加利福尼亞。

Qi,  X.,  Wu,  G.,  Boriboonsomsin,  K.,  Barth,  MJ,  &  Gonder,  J.  (2016)  數據驅動

基於強化學習的插電式混合動力實時能量管理系統

政 治
電動汽車。交通研究記錄,  2572(1),1‑8。

Schaul,  T.,  Quan,  J.,  Antonoglou,  I.,  &  Silver,  D.  (2015)。優先體驗重播。  ArXiv:

1511  05952v4。

Silver,  D.,  Schrittwieser,  J.,  Simonyan,  K.,  Antonoglou,  I.,  Huang,  A.,  Guez,  A.,  Hubert,  T.,

Baker,  L.,  Lai,  M.,  Bolton,  A.,  Chen,  Y.,  Lillicrap,  T.,  Hui,  F.,  Sifre,  L.,  van  den  Driessche,
ñ
G.,  Graepel,  T.,  Hassabis,  D.  (2017)  在沒有人類知識的情況下掌握圍棋遊戲。

自然  550:354‑359。
n

r
在n
一個 一世
l
Sutton,  RS  和  Barto,  AG  (2018)強化學習:介紹第二版, CH和n C H 一世

G
麻省理工學院出版社,劍橋。

Van  Hasselt,  H.、Guez,  A.  和  Silver,  D.  (2015)。使用  Double  進行深度強化學習

Q‑學習。  ArXiv:1509  06461

Vinod,  HD  和  Lòpez‑de‑Lacalle,  J.  (2009)。時間序列的最大熵引導。這

meboot  R  包。  J  統計軟件,  29  (2009),第  1‑19  頁

28
DOI:10.6814/NCCU202000375

You might also like