600301 基於深度強化學習的智能存貨控制

Machine Translated by Google
國立政治大學資訊管理學系
碩士學位論文
指導教授: 莊皓鈞博士
政治
立大
基於深度強化學習的智能存貨控制：
ñ 以高科技供應鏈為例
一種深度強化學習方法 n r
在
在n
一個
高科技供應中的智能庫存控制
l 一世
CH和 nG C H
一世
鏈條
研究生：廖信堯
中華民國一零九年二月
DOI:10.6814/NCCU202000375
致謝
我要感謝所有給予我支持和鼓勵的人
為完成論文。本論文的任何貢獻都歸功於您的寶貴
幫助和刺激。
首先，我要衷心感謝我的導師 Dr.
Howard Hao‑Chun Chuang，感謝他對我的碩士論文的持續支持，感謝他的耐心，
動力、熱情和豐富的知識。他全程指導我
我對這篇論文的研究和寫作，使我的成就成為可能。大的
再次感謝他，沒有他，這項工作將永遠不會看到光明政治
今天。立大
此外，我衷心感謝周延春博士、楊瑞中博士和
塗玉菊博士。他們的建議和啟發幫助我重新審視我的研究，鞏固
為本文的研究奠定了基礎，並拓寬了我對該學科的認識。
ñ
衷心感謝在我研究中敬愛的同學和學者
實驗室的不斷支持、寬容和鼓勵。 n
在
r
在n
一個一世
l
我還要感謝那些給我啟發的書籍和文章的作者
CH和n C H
一世
這篇論文的寫作。 G
最後但同樣重要的是，我的債務也延伸到我的家人和我的女朋友朵拉，
他們一生都在幫助、支持和照顧我。他們的支持和關心
激勵我堅持夢想，堅定不移地追求我的目標。
DOI:10.6814/NCCU202000375
抽象的
機器學習正在徹底改變各個行業的業務運營。之中
不同的學習技術，深度強化學習（DRL）
受到了廣泛關注
近年來，由於人工智能 (AI) 系統 AlphaGo 的突出表現
由 DRL 授權。 DRL 是一種無模型和數據驅動的方法，用於開發近乎最優的
順序決策問題的策略。對 DRL 在各種領域的成功感興趣
在本研究中，我們評估了 DRL 在多期庫存控制中的適用性
隨機需求，這是一個經典的馬爾可夫決策過程問題。與
全球最大的電子製造服務 (EMS) 分銷商，我們建議深
政治
用於智能庫存控制 (IIC) 的 Q 網絡 (DQN)。面對不穩定和不穩定
市場生命週期有限的電子元器件需求，經銷商無法推斷立大
精確的需求分佈和分析解決庫存優化問題
具有銷售損失設置的有限範圍。因此，我們通過指定相關狀態和
決策輸入，然後設計一個數據驅動的模擬環境，其中代理
ñ
經過數千集的訓練。對於訓練過的項目，DQN 在一個方面優於基準
幾種方法。首先，DQN 可以減少至少 40% 的總庫存，同時實現更好的
n
在
r
在n
一個一世
l 可以有效降低
服務水平。其次，當懲罰參數增加時，DQN
CH和n C H 一世
G 在同一個項目中，
缺貨的數量。當我們將訓練好的 DQN 轉移到測試集中時，
樣本外的表現非常出色。對於其他看不見的項目，我們使用最大值
Entropy Bootstrap 訓練集成 DDQN 並使我們的 DRL 代理更加健壯。鑑於
在我們的實驗中取得了有希望的結果，我們討論了影響、限制和進一步
將 DRL/DQN 應用於業務決策問題的方向。
關鍵詞：強化學習，深度學習，庫存優化，模擬，
運營管理
DOI:10.6814/NCCU202000375
內容
1. 簡介.................................................................. ..................................................... ....1
2。文獻綜述 .............................................. ................................................3
2.1 強化學習 ................................................... ..............................3
2.2 用於庫存控制的深度強化學習 ...................................................6
3. 深度強化學習代理............................................................ .............8
政治
3.1 問題情境和仿真環境.........................................................8
立大
3.2 用於庫存控制的深度 Q 網絡................................................................ .........10
4. 訓練表現和比較................................................................ .......15
4.1 RL 仿真設計和神經網絡架構調優 ....................................15
ñ
4.2 DRL 與 Benchmark 的比較...................................................... 18
n
在
r
CH和n C H 在n
一個
5. 轉移訓練有素的代理的適用性................................................................21
一世
l
一世
5.1 同項後期遷移學習表現..........................21
G
5.2 在新的未見項目上的遷移學習表現..........................22
5.3 DDQN 與集成學習方法................................................................ ......24
6. 結論與討論................................................................ ..............................25
參考................................................. ..................................................... .......27
一世
DOI:10.6814/NCCU202000375
圖列表
圖 1：高科技供應鏈示意圖 ...................................................1
圖 2：RL 的代理和環境.......................... .....................3
圖 3：示例項目的需求實現......................................................... .........9
圖 4：用於庫存控制的深度 Q 網絡 ................................................... .....12
圖 5：用於庫存控制的雙深度 Q 網絡 ................................................14
圖 6：Double Deep Q‑Networks 的訓練過程......................................................14
政治
圖 7：研究流程圖......................................................... ..............................15
立大
圖 8：DQN 和 DDQN 的性能 ................................................... .............16
圖 9：DDQN 和BS Policy 之間的比較......................................................18
圖 10：對LT、 LD和δ的敏感性分析...................................... ..........19
ñ
圖 11： Optimal、 BS和 DDQN 策略之間的決策比較.....20
圖 12：同一項目後期的測試表現..........................21
n
在
r
CH和n C H 在n
一個
圖 13：不同政策做出的決定（LT=12）......................................................22
l 一世
一世
G .22
圖 14：新的未見項目的需求實現..........................
圖 15：對新的未見項目的測試性能.......................... .....23
圖 16：不同政策對未見項目的決策（LT=12）............23
圖 17：訓練項目和模擬序列的需求實現............24
ii
DOI:10.6814/NCCU202000375
表列表
表 1：DRL 相關文獻回顧.......................... ......................8
表 2：RL 仿真環境設計................................................................ ............16
表 3：DDQN 的超參數 ................................................... ......................17
表 4：當LT等於 5 ..19時對區間和NN 結構的敏感性分析
表 5：不同策略之間的性能比較..........................20
表 6：單 DDQN 和 ensemble DDQN 的性能比較............25
政治
立大
n
在
r
在n
一個一世
l
CH和n C H 一世
三
DOI:10.6814/NCCU202000375
一、簡介
高科技供應鍊是一個資本密集型產業，尤其是半導體產業。
半導體行業的產品價值高，市場生命週期有限。這些
這些特點使半導體行業的庫存管理更加困難。
在高科技供應鏈中（見圖 1），分銷商是上游之間的橋樑
與下游並提供庫存對接服務，意味著他們的整個業務
圍繞庫存展開。分銷商的責任是確保每個請求
組件在正確的時間被運送到正確的地方。任何小的延遲到一個
組件可能會暫時停止整個生產，並導致巨大的收入損失和
政治
立
客戶的不滿。對於分銷商來說，一個天真的想法是儲存更多庫存
出乎意料的未來請求，但倉庫空間有限，存儲意味著
大
持有成本的發生。因此，如何制定切實可行的訂貨政策就成了一個
高科技經銷商面臨的重要問題。
n
圖 1：高科技供應鏈示意圖
在
r
在n
一個一世
l
在這項研究中，我們與最大的電子製造服務分銷商合作
H和nG C H C 一世
(EMS) 旨在製定最佳補貨政策以減少庫存
在不影響其服務水平的情況下。我們將庫存控制問題表述為
順序決策過程，通常稱為馬爾可夫決策過程
（MDP）。通常，MDP 可以通過動態規劃來解決，即劃分問題
成更簡單的子問題，但是高維狀態和動作空間，即詛咒
維數，導致經典動態規劃效率低下。但是，那
深度強化學習 (DRL) 解決了維度問題，它結合了深度
學習和強化學習（RL）。從 2015 年開始，DRL 吸引了公眾
主要歸功於 AlphaGo，這是一種由 DRL 授權的人工智能 (AI) 系統。
1
DOI:10.6814/NCCU202000375
除了遊戲，DRL在機器人、計算機等領域也有廣泛的應用
願景、財務等。因此，我們提出了一種用於智能庫存的 DRL 方法
控制（IIC）。具體來說，我們基於深度 Q 網絡 (DQN) 的 DRL 方法利用
神經網絡作為價值函數逼近器，然後設計數據驅動的模擬
環境通過指定相關的狀態和決策輸入。
我們很高興做出以下貢獻：（1）
我們提供概念證明
DRL，無需對需求結構做任何先驗假設，就可以應對庫存
隨機需求和銷售損失的現實世界環境中的問題。 (2) 通過增加
狀態和動作空間維度，我們構建了一個接近於
政治
立
現實。 (3) 我們的 DRL 代理可以勝過公司目前使用的方法（基準）
通過減少總庫存和達到更高的服務水平來進行培訓和測試。 (4) 我們
大
設計缺貨懲罰機制，不僅減少庫存總量，
保持理想的服務水平和填充率。 (5) 同一範圍內的樣本外測試
項目，DRL 的表現是有前途的，並提供了體面的採購政策
ñ
經銷商。 (6) 對於未見項目的樣本外測試，我們提出了一種集成方法：
n
大大超過了我們的單一 DRL 代理。總的來說，我們的研究是對
在
r
在n
一個一世
l
DRL 是否有資格作為難處理庫存的通用技術 CH和n C H 一世
G
補貨問題（Gijsbrechts 等人，2019 年）。通過對理論做出紮實的貢獻
和高科技供應鏈中的庫存控制實踐，我們的純數據驅動建模
努力旨在成為開發基於狀態的規範分析的原型示例
最先進的 DRL 技術。
本文的其餘部分的結構如下。第 2 節提供了一個簡短的總結
相關文獻和我們的貢獻。方法和算法的細節是
第 3 節介紹，第 4 節提供 DRL 代理的訓練性能。部分
圖 5 顯示了將訓練有素的代理轉移到測試項目和我們的集成模型的結果。在
2
DOI:10.6814/NCCU202000375
最後一部分，我們總結了整個研究並討論了影響，
限制，以及在庫存問題中應用 DRL 的進一步方向。
2。文獻綜述
2.1 強化學習
強化學習（Sutton 和 Barto，2018 年）
是機器學習的一個分支，它結合了
動態規劃和監督學習 (Gosavi, 2009)
解決 MDP 的強大框架，一種代表順序決策的類型
不確定性下的問題。 RL 已應用於多個領域，例如游戲（Silver
et al., 2017)、能源效率優化 (Qi et al., 2016) 和庫存控制
政治
立
（Oroojlooyjadid 等人，2019b）。這種方法是一種訓練代理學習最優
通過代理和環境之間的試錯交互來製定策略（參見圖 2）。
大
在每個時間步t 中，代理選擇一個動作， ∈ ( ) （其中 ( ) 是
當前狀態下可能的動作）
通過觀察當前狀態， ∈ (哪裡是集合
ñ
可能的狀態），獲得獎勵 ∈ ，然後環境隨機過渡到另一個
狀態， +1 ∈ .轉移概率矩陣 ( , )，顯示轉換的概率
從狀態至 +1採取行動
n ， IE， ( ,
在
r
) = Pr( +1 = | = , =）。
CH和n C H 在n
一個一世
l
相應地， ( , ) 表示獎勵矩陣。 RL 算法的目標是一世
G
通過確定策略來最大化折扣獎勵的預期總和， : →
∞
最大化 ∑ =0 [ ( , +1)] , 其中 = ( ) 和 0 ≤ ≤ 1 是折扣
因素。
圖 2：RL 的代理和環境
3
DOI:10.6814/NCCU202000375
基於是否 ( , ) 是已知的，RL 算法可以分為兩個子域：
基於模型和無模型的方法。在基於模型的方法中，我們可以獲得最優的
通過動態規劃制定策略，如價值迭代和策略迭代（Gosavi，2009），
或線性規劃（Sutton 和 Barto，2018 年）。然而，在現實中， ( , ) 通常是
未知或難以估計。無需直接計算價值函數，無需模型
方法直接從與環境的試錯交互中學習並估計
通過隨機逼近的價值函數。通常，無模型方法通常是
如果您無法訪問環境的底層模型（Arulkumaran 等人，
2017）。
政治
在無模型方法中，RL 算法可以進一步分為兩類：
立
政策內和政策外（Sutton 和 Barto，2018 年）。 RL 的框架中有兩個策略。
大
用於生成行為的一個稱為行為策略，另一個稱為評估
或改進稱為目標策略。 on‑policy 和 off‑policy 的區別
是它的行為和目標策略是否相同。策略上的方法試圖評估 ñ
行為策略與目標策略相同，而 off‑policy 方法將這兩者分開
n
政策。 off‑policy 方法的分離使他們能夠繼續採樣所有可能的
在
r
C SARSA 和 Q在 n 一個
l 一世
目標策略是確定性的（例如，貪婪的）
時採取的行動。 ‑learning 是
H和nG C H 一世
分別表示on‑policy和off‑policy方法。
Q‑Learning 是一種重要的 RL 算法，它通過獲取策略來解決 MDP
最大化任何 ∈ 和 = ( ) 的 Q 值，即：
* ( , ) = 最大值 [ + + 2
+ 3
+⋯ | = , = , ] (1)
+1 +2 +3
計算 ( , )，我們使用貝爾曼方程將方程（1）
轉化為方程（2）
並解決 MDP 以獲得最佳決策。
( , ) = max [ + γmax ( ) | = , = , ] (2)

+1，
4
DOI:10.6814/NCCU202000375
在學習之前，RL 代理初始化 ( , ) 對於所有s和a具有初始值，然後
通過公式（3）
繼續更新，這是一種加權平均方法，由舊的
Q 值和學習 Q 值：
( , ) = (1 ‑ ) ( , ) + ( +1 + γ 最大值 ( +1, )), ∀ = 1,2, ..., (3)
在哪裡 ( +1, ) 是對最優未來價值的估計，並且是學習率
時間步長t。然而，傳統的 RL 方法在以下情況下遭受維度災難
問題的狀態和動作空間很大。雖然利用其他功能
提出了近似值函數（Sutton and Barto, 2018），例如線性回歸，
非線性函數或神經網絡逼近器，這些逼近器有不穩定或
政治
由序列中的非平穩性和相關性引起的發散 Q 值問題
立大
觀察（Mnih 等人，2013 年）。因此，Mnih 等人。 (2015) 提出了一個開創性的深度 Q
網絡 (DQN) 算法，它結合了 Q‑learning 與深度神經網絡 (DNN) 和
體驗重放記憶（Lin，1992）。 DQN 將 DNN 作為價值函數逼近器
ñ
預測最優 Q 值：
( , ) ≈ ( , ; ) (4)
*
n
在
r 2
; )
－ ,∀ = 1,2, ...,
l ( +1 + γ 最大值 (
在n
= 最小 [ ( , 一個 +1, ; 一世
‑))] (5)
CH和n C H 一世
在哪裡 G這
( +1, ; －) 由權重為－的目標網絡近似。
具有權重的評估網絡使用目標函數進行訓練，表示為方程
(5)。 Mnih 等人。 (2015) 實施了經驗回放記憶以降低相關性
依賴於時間的觀察並繼續對其新行為進行訓練。此外，他們使用
貪婪的方法：選擇貪婪的動作，即， = ( ）和
+1 +1，
概率 1 ‑ , 或以概率選擇隨機動作在時間t，增強
代理的探索能力。
5
DOI:10.6814/NCCU202000375
2.2 庫存控制的深度強化學習
庫存控制通常由希望最大化利潤的公司進行
在不影響服務水平的情況下保持最少的庫存量。在供應鏈中
網絡，有不同的玩家，每個人都必須決定他們的庫存
補貨政策（Giannoccaro 和 Pontrandolfo，2002 年）。我們的研究位於十字路口
在庫存控制、機器學習和強化學習之間。有大量的前期研究
上述域中的每一個。因此，我們不是分別回顧每個主題，而是
本節只討論最相關的文獻。
Giannoccaro 和 Pontrandolfo (2002) 是最早應用 RL 算法解決
政治
連續供應鏈中的庫存問題。他們使用半馬爾可夫平均獎勵技術
為具有三個面臨隨機供應的代理的供應鏈系統做出訂購決策
立大
交貨時間和需求。查哈蘇吉等人。 (2008) 考慮一個有四個代理的環境
和有限的時間範圍，並提出了一種基於 Q‑learning 的排序決策算法。
兩項研究都報告說 RL 算法提供了具有競爭力的結果。然而，經典的強化學習
ñ
算法受限於狀態空間和動作空間的大尺寸，這使得應用
RL 對庫存控制的關注有限。
n
在
r
在n
一個一世
l
C H和nG C H
最近的進展，例如在 DRL 發布中使用深度神經網絡作為函數逼近器一世
限制並增強RL的適用性。據我們所知，只有
Oroojlooyjadid 等人。 (2019b) 和 Gijsbrechts 等人。 (2019) 開發了用於庫存的 DRL 代理
控制問題。 Oroojlooyjadid 等人。 (2019b) 替換啤酒遊戲中的代理人i
具有 DQN 代理的供應鏈，而其他代理遵循基本庫存政策（理性）
或
斯特曼公式（非理性）。他們的模擬環境由定義的狀態變量組成
作為代理i的最後m個觀察週期， d+x規則（x在某些有界數中）
對於
行動空間，獎勵函數定義為缺貨和持有成本的總和
代理。此外，他們提出了一個懲罰程序來通知 DQN 代理關於本地
成本（DQN 代理）
和全局成本（所有代理）。他們表明 DQN 代理優於其他
6
DOI:10.6814/NCCU202000375
最小化總供應鏈成本的政策。 Gijsbrechts 等人。 (2019) 顯示如何
可實施DRL，解決雙源、流失、多級庫存
問題。通過分配庫存水平和積壓作為狀態變量，所有可能的數量
來自不同供應商的作為行動空間，採購和持有成本的總和作為獎勵
功能，他們提出了一種異步優勢演員評論家（A3C）
算法並比較
它對顯著的政策和啟發式的表現。他們的結果表明，DRL 代理達到
示例問題中相當小的最優性差距，但似乎不是最好的
測試策略/啟發式中的執行者。
出於通過 DRL 算法解決庫存控制問題的相同目標，我們的
政治
立大
研究與 Oroojlooyjadid 等人的研究有很大不同。 (2019b) 和 Gijsbrechts 等人。 (2019)
在幾個方面（見表 1）。首先，兩項研究都假設需求是一個獨立且
服從概率分佈的同分佈（iid）
隨機變量，例如
伽馬分佈或均勻分佈。很難在 EMS 中推斷出該假設
部門。因此，我們讓 DRL 代理直接從嘈雜的需求信號中學習，而不是
ñ
而不是對需求結構強加任何參數假設。二、而不是限制
n
在一些小數量的行動空間中，我們通過將訂單數量設置為來釋放約束
在
r
在n
一個一世
l
數万/數十萬，並為我們的模型開髮帶來嚴重挑戰。第三， CH和n C H 一世
G
由於直接從真實數據集中檢索到有限的訓練期，我們的 DRL 代理只能交互
每集有 96 個週期的環境，這使得代理訓練更加困難。
此外，與 Oroojlooyjadid 等人不同。 (2019b)，銷售損失特定時期未滿足的需求
未來無法實現是我們研究的一個主要情況。這個約束意味著
缺貨比持有庫存更重要，增加了建模的難度。
用更現實的假設來解決有限範圍的銷售庫存損失問題
需求和可能的行動，我們嘗試通過 DRL 技術開發原型分析
並評估為從業者部署 DRL 代理的可行性和價值。
7
DOI:10.6814/NCCU202000375
表 1：DRL 相關文獻回顧
政治
立大
3. 深度強化學習代理
3.1 問題情境與仿真環境
根據對採購高管的採訪，我們了解到一些繼承
ñ
EMS的特點。首先，多期庫存問題是一個具有有限的 MDP
地平線失去銷售設置。二、EMS客戶需求隨機，供應領先
n
時間下訂單後收到貨物的周數是穩定的。訓練 DRL
在
r
在n
一個一世
l
採購代理，我們要先構建模擬環境。等式 (6) ‑ (11) CH和n C H 一世
G
在仿真程序中顯示庫存控制系統的物理特性。下面我們解釋
他們每個人。
等式 (6) 表明，在周期/週t 中，開始在手 ( ) 庫存是結束
前一周的現有(EOH)庫存 ‑1。由於每週的決定
製造商決定訂貨量 LT後到達經銷商倉庫
（供應提前期）
週，第t週收到的訂單（ ) 恰好是q放置在周期t‑LT
1（如等式（7）
所示）。然後隨機需求來了，公司更新了它的
等式 (8) 中的EOH和等式 (9 ) 中的缺貨(OOS )。等式 (10) 顯示了
周積壓（ ) 等於前一周的周初積壓 ( －1)減
8
DOI:10.6814/NCCU202000375
前一周已經收到貨物（－1)，加上前一個下的訂單
週（ ‑1）。最後，我們在公式 (11) 中計算可用庫存 ( )/庫存頭寸
等於EOH和周初在途庫存的總和減訂單
收到這個期間。
= (6)
‑1
= .. (7)
‑ ‑1
= ( + ‑ , 0) (8)
= ‑
( ‑ , 0) (9)
= ‑
‑1 + (10)
政治
‑1 ‑1
立大
= + (11)
庫存系統的不確定性源於未知的需求實現 .
穩定但較長的交貨期LT會加劇問題，因為預測所有不確定的需求
*
實現在等式（12）
中確定確切的最佳訂貨量沒有
ñ
指輕而易舉的任務。我們沒有對隨機變量D施加參數假設，而是
使用隨機需求時間序列作為等式 (8) 的原始輸入，以在
決策環境。圖 3 顯示了一個示例項目的需求數據
n
在
r
在n
一個一世
l
我們的初步分析。時間序列中的非平穩性讓人無法計算 CH和n C H 一世
G
最優訂單數量，因此我們提出了一種 DRL 方法來解決這個決策問題。
* = +
+ +1 ‑ 最大（0， ‑ ∑ = +1 ) (12)
圖 3：示例項目的需求實現
9
DOI:10.6814/NCCU202000375
我們的 DRL 代理的目標是找出一個補充策略來識別這樣的
可以最小化T個週期內的EOH和OOS的總和，如等式（13）
所示。
該參數是OOS的非負懲罰項，以幫助 DRL 代理取得平衡
在持有庫存和導致缺貨之間。此外，我們監控服務水平(SL )
等式 (14)，其中Ind ( ) 如果輸入為真則返回 1，否則返回 0。表示
所需的填充率，即生產需求的比例應該滿足和
. SL告知決策者能夠滿足的可能性超過T週。
∑ ( =1 + ) (13)
+
∑ =1 ( ≥
)
政治
= (14)
3.2 用於庫存控制的深度 Q 網絡
立大
在說明問題情況和仿真環境後，本節我們將描述
我們如何為訂單決策開發深度 Q 網絡 (DQN)。每個 RL 代理都經過
與動態環境的試錯交互。每次代理選擇一個
ñ
給定當前狀態的動作，它會從環境中獲得獎勵。那麼，由於隨機
在我們的案例中實現了需求，環境過渡到下一個狀態。通過收集
狀態‑動作對和相應獎勵的歷史，代理學習如何做出決策
n
在
r
在n
一個一世
l
和
在各種情況下，即不同的狀態值。狀態和動作空間的細節，
CH n C H 一世
G
獎勵函數和 DRL 算法定義如下。
狀態變量：我們包括本週的現有庫存，庫存
過境 ( ‑ , ‑ +1, ... , ‑1)，最近幾週的需求實現 ( ‑ +1, ..., ‑1, )
和時間效應（和時間戳t) 在狀態變量和顯示作為
( , , ‑ , ‑ +1, ... , ‑1, ‑ +1, ..., ‑1, , , ), 其中LT是供給
提前期和LD是需求歷史的長度。
獎勵功能：獎勵功能是驅動智能體的關鍵
行為。在每個時期/週t 中，代理觀察狀態變量並採取行動；
10
DOI:10.6814/NCCU202000375
我們將獎勵結構設置為衡量行動的好壞，其中 =
( +1 + * + + +1)是缺貨的懲罰參數。請注意，我們
使用t+LT+1期間EOH和OOS的值，因為不會直接影響系統
直到那個時期的表現。
行動空間：此 MDP 問題中可能的行動數量或訂單數量
是無限的。為了使 DQN 正常運行，我們離散化動作空間並設置一個上限
限制數量， , 以及動作的粒度、間隔，以生成可能的動作選擇
如1 = 0， = ( /間隔1)*1, 3 = ( /interval－1) 2, ⋯ , =

2
區間越大，可能動作的自由度越大。然而，這來了
政治
以增加神經網絡中輸出節點和參數的數量為代價，使得
DRL 代理更難訓練。
立大
DQN 和 DDQN 算法：在定義了狀態、動作和獎勵之後，我們提出了我們的
圖 4 中用於庫存控制的 DQN 算法。我們的 DRL 代理的目標是學習一個
旨在最小化（而不是最大化）
累積的接近最優策略 ñ
折扣獎勵（見公式（13））。首先，我們初始化我們評估的所有權重
網絡（）
和目標網絡（ ‑ ）
到隨機數
n
在
r
, 其中～（0，0.1）。然後，
在n
一個一世
l
算法從一個外部for循環開始，該循環要求代理了解要訂購多少 CH和n C H 一世
G
n集。對於每一集，我們重置內存緩衝區並將所有狀態變量初始化為 ‑1
（因為在第 0 期沒有觀察到）。之後，我們進入一個內部for循環
T期/週。在每個時期t，代理收到先前的訂單數量 ( )，滿足
隨機需求 , 並採取行動。隨後，環境過渡到新的
狀態 +1。在T個週期內，智能體不斷與環境交互並存儲
標準化經驗， IE [
, , ,
+1 ] , 進入內存緩衝區 , 在哪裡
包括 { ‑ , ... , } 和是內存緩衝區的大小。在這裡，我們將體驗標準化
經過解決不同item的scaling問題，增強泛化性
11
DOI:10.6814/NCCU202000375
我們的 DRL 代理。請注意，為了平衡此 MDP 中的探索‑開發權衡，我們
採用貪心策略確保 DQN 代理有概率選擇一個動作
隨機（探索）
並隨著代理隨著時間的推移而衰減。
用於庫存控制的算法深度 Q 網絡
..1:程序 DQN ..2: for
Episode = 1 : n do (模擬庫存控製過程)
..3：初始化體驗回放記憶， E = [ ]
..4：重置BOH、 EOH和積壓工作
..5：對於t = 1 : T做
..6：以概率ε隨機採取行動
..7：否則設置at= argmin ( , , )
政治
..8：
..9：立
在 at執行動作，進入狀態st+1，並收集獎勵rt
將(st, at, rt, st+1)添加到E 大
10：從E中獲取一小批經驗（sj、 aj、 rj、 sj+1）
11: 設置 = + * min ( , ; ‑) < , =
12：在具有損失函數 ( ‑ ( ,
2
13: ñ ; )) 更新
14: 每C次迭代，設置‑ =
15：結束
16：調整e
n
在
r
在n
一個一世
17：結束 l
CH和n C H 一世
18：結束程序
G
圖 4：用於庫存控制的深度 Q 網絡
當內存緩衝區滿時，代理分別執行兩個任務。一是保持
通過先進先出 (FIFO) 方法更新內存緩衝區，另一種是對 mini 進行採樣
隨機批量訓練評估網絡 ( ) (Lin, 1992)。隨機抽樣方法
打破了與時間相關的觀察之間的相關性，減少了
近似值 (Mnih et al., 2013)，並防止神經網絡成為
發散逼近器（Minh et al., 2015）。優先體驗重播（Schaul 等人，
2015）
是採樣經驗的另一種選擇，但是，考慮到連續非零
在我們的模擬中，隨機抽樣和優先抽樣可能沒有區別。
12
DOI:10.6814/NCCU202000375
評估網絡 ( ) 試圖找到權重以最小化均方誤差 (MSE)
Q (s, a; )和 , 哪裡是從目標獲得的 Q 值的預測
網絡（ ‑）。這是通過在 mini 上運行一次前向傳播和反向傳播來完成的
批次樣品。在每一集的迭代訓練過程中，目標的權重
每C次迭代，網絡將被評估網絡的權重替換。
儘管 DQN 的結構是創新的，但 DRL 文獻 (Van Hasselt et al., 2015)
報告 DQN 通過貪婪策略逼近目標 Q 值，這可能導致
在我們的模擬中低估了非最優動作的 Q 值。因此，我們輕描淡寫
Van Hasselt 等人對 DQN 的有效修改。（2015）
誰提出了雙
政治
立
DQN (DDQN) 算法使用評估 ( ) 和目標 ( ‑) 網絡來確定
如圖 5 和 6 所示。具體來說，我們首先使用評估網絡選擇最佳
大
為下一個狀態採取的行動，即 ( +1; ) = argmin ( +1, , ) 。然後我們
代替 = + * ( , ; ‑) 在圖 4 與 = + *

ñ
( +1, ( +1; ); ‑)。 DDQN 算法的其餘部分未分化為
DQN 算法。如果 Q 值表現出收斂性並且 MSE 值在n次發作後穩定，
n
在
r
圖 5 中用於庫存控制的 DRL 將產生一個智能代理評估
在n
一個一世
l
CH和n C H 一世
網絡 ( ) – 用於採購決策。研究流程圖合併於 G
圖 7. 我們已經解釋了我們的模擬和環境。在接下來的部分中，我們
展示我們的訓練表現和样本外測試。
13
DOI:10.6814/NCCU202000375
用於庫存控制的算法Double Deep Q‑Networks
..1:程序 DDQN ..2: for
Episode = 1 : n do (模擬庫存控製過程)
..3：初始化體驗回放記憶， E = [ ]
..4：重置BOH、 EOH和積壓工作
..5：對於t = 1 : T做
..6：以概率ε隨機採取行動
..7：否則設置at= argmin ( , , )
..8：在 at執行動作，進入狀態st+1，並收集獎勵rt
..9：將(st, at, rt, st+1)添加到E
10：從E中獲取一小批經驗（sj、 aj、 rj、 sj+1）
11: 定義
政治
( +1; ) = argmin ( +1, , )
12：
13:
設置 = + * ( +1,
在具有損失函數 ( ‑ ( ,
立 ( +1; ); ‑)
大 < , =
2
14: ; )) 更新
15：每C次迭代，設置‑ =
16：結束
17：調整e
ñ
18：結束
19：結束程序
圖 5：用於庫存控制的雙深度 Q 網絡
n
在
r
在n
一個一世
l
CH和n C H 一世
圖 6：Double Deep Q‑Networks 的訓練過程
14
DOI:10.6814/NCCU202000375
政治
立大
ñ
圖 7：研究流程圖
4. 訓練表現和比較
n
在
r
我們使用所選項目的前 70 週需求（見圖
一個
l
C 3）來訓練我們的在 n代理，
DRL
一世
H和nG C H一世
剩下的 26 周用於樣本外測試。我們的模擬環境是
根據採訪設計，盡可能貼近實際業務情況
採購主管。
4.1 RL 仿真設計和神經網絡架構調優
根據我們對 IIC 的了解和信息，我們建立了我們的環境
參數如表2所示。最小和最大可能的訂購數量， ,
, 和interval，通過分組連續訂購數量的分箱數，定義
DRL 的動作空間。此外，缺貨的懲罰參數使我們能夠
維持在理想的SL和FR。並且，DRL的狀態變量的大小與長度有關
15
DOI:10.6814/NCCU202000375
供應提前期(LT)和歷史需求(LD)。所需的填充率， , 已經
在上一節中定義。
表 2：RL 仿真環境設計
建立模擬環境後，我們開始訓練我們的 DRL 代理。然而，
在致力於調整模型性能之前，我們希望確保我們提出的
政治
算法能夠學習接近最優的策略。理論上，我們的代理人應該
在最佳情節中經常選擇獎勵最低的動作。因此，我們試圖
立大
通過一致地分配具有零獎勵的可能動作之一來驗證該理論，並且
在圖 8 中繪製兩種算法每集的訓練損失和獎勵。該圖顯示
這兩種算法都從我們的模擬環境中學習了接近最優的策略。經過考慮的
ñ
訓練損失的穩定性和低估非最優動作的Q值的問題，
n
我們最終選擇 DDQN 而不是 DQN，並將其性能與其他策略進行比較
在
r
在n
一個一世
l
以下部分。 CH和n C H 一世
(a) 每集的訓練損失 (b) 每集訓練獎勵
圖 8：DQN 和 DDQN 的性能
16
DOI:10.6814/NCCU202000375
為了訓練我們的 DRL 代理，需要分配一些 DDQN 的超參數
預先。然而，要確定 DDQN 的超參數的合適值是非
瑣碎而耗時的任務，更不用說評估所有可能的組合是
計算成本高。因此，我們在每個重要的超參數上定義網格空間
並利用網格搜索在每個實驗中找到好的超參數集。具體來說，我們
首先通過修復其他超參數來逐個測試每個超參數以找到重要的參數，（即，學習
率、更新頻率和批量大小），用於模型性能。然後，我們探索組合
在總共 288 個場景的三個重要超參數中，修復了其他
超參數（神經網絡結構 = S，激活函數 = ReLU，內存緩衝區
政治
立
大小 = 40，伽馬 = 0.99）。在確定了 288 個測試用例中的最佳場景後，我們
然後反複測試固定超參數的不同值，完成網格搜索。
大
由於存在無限的選擇來設計神經網絡結構，我們選擇了四種不同的
我們標記為小型、中型、大型和超大型的配置。每個 DNN 網絡都是
所有全連接網絡，並具有具有 ReLU 激活功能的隱藏層。在默認
ñ
模擬環境的設置，我們觀察到良好的性能和高效率
n
超參數集顯示在表 3 中。為了優化神經網絡，我們利用 Adam
在
r
一個
l
C 5，學習率為 0.0005， n一世
在並訓練我們的
H和nG C H
優化器 (Kingma and Ba, 2017)，批量大小為一世 DRL
代理 8,000 集 = 0.9 並通過集線性減少到 0.05。所有的
以下計算和實驗是在 12 核和 64 GB 的節點上完成的
PyTorch 1.1 的內存。
表 3：DDQN 的超參數
17
DOI:10.6814/NCCU202000375
4.2 DRL 與 Benchmark 的比較
為了評估我們的 DRL 代理的性能，我們選擇了一個基線策略（BS 策略）
目前在合作公司中實施作為我們的基準，如公式（15）
所示。
與BS 政策相比，我們只關注平均總庫存、平均EOH、
平均OOS、 SL （等式（14））
和FR ，其定義為等式（16）。
= (15)
(( ∑ = － +1 ) × － ,
‑1
= +1
‑1 (16)
= 1 ‑ ( ∑ ∑ =
+1 0) )
根據公司內部預測分析，我們在BS政策中設定=8。在
圖 9，從初步訓練結果來看，我們認為我們的 DDQN 代理優於BS 政治
立
政策在幾個方面。首先，當懲罰參數 ( ) 等於 1 時，我們的 DDQN 代理可以大
將平均EOH和平均OOS水平分別降低 89% 和 34%，並實現
FR高於BS 政策。二是隨著人數的增加 , 我們的 DDQN 擁有更多的平均EOH
以避免發生缺貨。等於10時，即1個單位OOS等於10個單位
ñ
在EOH 中， DDQN 代理持有的平均EOH低於BS 策略，但達到 89%的SL
平均OOS減少 89% 。因此，在訓練階段，DDQN 優於BS
n
在
r
在n
一個一世
政策並在增加的同時表現得更好。l
CH和n C H 一世
圖 9：DDQN 和BS Policy的比較
18
DOI:10.6814/NCCU202000375
此外，我們對供應等環境參數進行了一些敏感性分析
提前期(LT)、需求歷史的長度(LD)和行動空間(Interval)，以及
將結果匯總如下。在圖 10 中，當LT增加時， DDQN的SL
with = 1 下降，但DDQN with = 10的SL保持穩定並超過BS
policy但是， LD似乎對 DDQN 的性能沒有影響。
政治
立
圖 10：對LT、 LD和δ的敏感性分析
大
在表 2 中我們默認的模擬環境設計中，可能的操作數
DDQN 只有 21。在表 4 中，我們通過增加間隔和
比較其在不同神經網絡結構中的表現。結果暗示自由度
ñ
行動不是影響 DRL 績效的重要因素。一個可能的原因是
使神經網絡難以收斂的權重數量。
n
在
r
在n
一個一世
l
表4： LT =5時區間和NN結構的敏感性分析
和
CH n C H 一世
19
DOI:10.6814/NCCU202000375
我們已經知道 DDQN在默認環境設置中的性能優於BS Policy 。在
表 5，我們進一步比較了它在不同LT上的表現，並鞏固了五個顯著的
不同排序策略的索引。隨著LT 的增加， DDQN 始終保持高位
優於BS Policy。 In = 12，DDQN 不僅將平均成本和OOS保持在較低水平
水平（比BS Policy 低 68% 和 86%），但也維持接近 90% SL和 97% FR。
表 5：不同策略之間的性能比較
政治
立大
總的來說，上面的分析表明我們的 DRL 代理可以被訓練成
訂購決定。然後，我們回顧了在LT等於時由不同策略做出的這些決定
12 通過繪製圖 11 中的折線圖。 Optimal Policy表示補貨策略
ñ
當我們有關於未來需求和訂單數量的完美信息時， t被定義為
如等式（12）
所示。我們觀察到黃線（DDQN 策略）
更接近藍線
n r
在
在n
一個一世
l Policy的相關係數
（最優策略）。最優策略間DDQN與BS
CH和n C H 一世
G
分別為 0.025 和 0.3。這意味著 DDQN 更像是一個比BS更接近最優的策略
政策
圖 11： Optimal、 BS和 DDQN 策略之間的決策比較
20
DOI:10.6814/NCCU202000375
5.轉移訓練有素的代理的適用性
在本節中，我們將訓練好的 DRL 代理轉移到兩種情況：轉移到後者
同一項目的期間並轉移到新的看不見的項目。我們也嘗試探索
通過添加集成技術，DRL 在庫存控制問題上的潛力和能力。
5.1 同項目後期遷移學習表現
在圖 12 中，我們展示了 DDQN 和BS 策略在不同LT 上的測試結果。而LT
增加， BS 政策傾向於持有更多庫存以實現理想的SL。平均EOH
BS 政策增加了 39% 和 237%，而LT分別等於 9 和 12。然而，
我們的 DRL 代理在各個方面都優於BS 策略在不同的LT上。 DDQN 不僅減少
政治
立
總庫存也達到 100% SL和FR。與BS 策略相比， DDQNs
大
= 1 實現 100% SL和FR，平均EOH降低13%、62% 和 393%，而LT
分別等於 5、9 和 12。雖然等於 10，但測試結果與
上述結果。如圖 12 所示的結果，我們證明了我們訓練的 DDQN
可以成功轉移到同一項目的後期，這意味著 DRL 可以
ñ
幫助從業者在收集時為不同物品製定更好的庫存策略
足夠的歷史數據。
n
在
r
在n
一個一世
l
CH和n C H 一世
圖 12：同項後期測試表現
21
DOI:10.6814/NCCU202000375
此外，在圖 13 中，我們繪製了不同策略的訂購數量
而LT等於 12。我們注意到BS Policy只訂購了兩次，數量巨大，而且
DDQN 傾向於頻繁訂購足夠數量，這可以解釋為什麼 DDQN
表現優於BS Policy每週做出的比較決策、訂單數量
DDQN 更接近最優策略的最優數量。樣本外
DDQN 的表現令人鼓舞，並為客戶提供了體面的採購政策
經銷商。
政治
立大
圖 13：不同政策做出的決定（LT=12）
5.2 新看不見項目的遷移學習表現
ñ
我們還將我們訓練有素的 DRL 代理轉移到看不見的項目中，例如顯示在
圖 14. 這個項目是一個 96 週的時間序列，具有完全不同的需求模式
n r
在
在n
一個一世
作為示例項目，這增加了遷移學習的難度。 l
CH和n C H 一世
圖 14：新的未見項目的需求實現
我們將 DDQNs 和BS Policy在不同LT上的測試結果合併為圖 15。
在 = 5 的情況下，DDQN 在總庫存上的表現優於BS Policy ，但它們實現了
22
DOI:10.6814/NCCU202000375
即使很大， SL和FR也很低。 BS Policy的總庫存增加了 61% 和
156%，而LT等於 9 和 12，但BS Policy保持穩定的SL和FR。我們的 DDQN
當LT增加時，總庫存表現更穩定，但它們的SL和FR較低。這
測試結果不如第 4 節中描述的訓練結果。
政治
立大
圖 15：新的未見項目的測試性能
我們在圖 16 中繪製了不同策略的訂購數量折線圖。
ñ
保單訂購頻率較低，但訂購量很大以滿足未來需求，而
與BS Policy相比，DDQN 的訂購量往往更少但更頻繁。基於數量的差距
n
然而，在 DDQN 和Optimal Policy之間，我們的 DDQN 訂單數量不足，無法履行
在
r
在n
一個一世
l
C H和nG C H
即將到來的需求。 BS Policy和 DDQN之間的差異反映了兩者的總和一世
庫存和SL。總體而言，它表明 DRL 在未見項目上的遷移學習更多
基於單個 DDQN 的困難和挑戰。
圖 16：不同政策對未見項目的決策（LT=12）
23
DOI:10.6814/NCCU202000375
5.3 DDQN 與集成學習方法
在 5.2 節中，我們只用一個時間序列序列訓練了我們的 DRL 代理，並且
根據樣本外的表現，訓練有素的代理的轉移並不理想。儘管
我們訓練了我們的代理數千集，對模擬環境的探索可能
不足以讓 DRL 代理在看不見的項目上表現良好。為了增加
我們的 DDQN 的泛化性，我們利用最大熵引導 (MEBoot) (Vinod
和 Lòpez‑de‑Lacalle，2009 年）
在訓練的基礎上模擬其他 19 個時間序列序列
項目觀察（見圖 17）。有許多采樣技術，例如隨機
抽樣和分層抽樣，但由於時間相關，我們選擇 MEBoot
政治
立
我們的需求順序的關係。 MEBoot 是一種避免不必要的算法
分佈假設並為時間序列推斷創建一個集合。為了減少
大
DDQN 的 Q 值估計的方差並使我們的代理更健壯，我們訓練
多個/集成 DDQN 而不是單個 DDQN。
n
在
r
在n
一個一世
l
CH和n C H 一世
圖 17：訓練項目和模擬序列的需求實現
通過MEBoot從原始序列模擬19次，我們有20個時間序列
序列，對於每個時間序列，我們將環境設置為默認設置，我們的
表 3 中具有相同超參數的 DDQN。然後，我們為一個時間序列訓練一個代理
24
DOI:10.6814/NCCU202000375
分別存儲每個序列中性能最好的神經網絡。
這 20 個時間序列序列之間的差異使每個智能體可以探索更多
模擬環境的可能性。當代理在期間做出訂購決定時
測試，對於每個動作，我們取 20 個 DDQN 代理的平均 Q 值並選擇動作
具有最小的平均 Q 值。
單個和集成 DDQN 的樣本外性能合併為表
6.我們已經知道單個DDQN的測試結果不如訓練結果
在第 4 節中描述，但集成 DDQN 可以勝過BS Policy和單個 DDQN。
當 = 10 , 單個 DDQN 的性能並不理想，但是 ensemble DDQN
政治
立
優於其他政策。 Ensemble DDQN 擁有BS平均EOH的近一半
策略和只招致單個 DDQN 平均OOS的 38%，但 ensemble DDQN 可以
大
達到 82% SL和 90% FR。這些結果意味著我們成功地轉移了我們訓練有素的代理
在新的看不見的項目上。我們得出結論，我們的合奏技術是有效的，我們的合奏
DDQN 可能會降低最優 Q 值估計的方差並增加
ñ
我們的 DRL 代理的普遍性和魯棒性。
n
表 6：單 DDQN 和 ensemble DDQN 的性能比較
在
r
在n
一個一世
l
CH和n C H 一世
6. 結論與討論
在本文中，我們正式評估如何使用 DRL 訓練智能採購代理
算法和嘈雜的需求數據。我們將庫存控制問題作為單一的
在具有隨機需求和銷售損失的現實環境中進行代理庫存控制。這
提議的 DDQN 顯著優於基準 ‑ 當前使用的採購政策
25
DOI:10.6814/NCCU202000375
由經銷商。 DDQN 能夠降低近 50% 的庫存水平
為測試項目實現更高的SL 。更重要的是，看到不滿意
將 DDQN 的學習遷移到看不見的項目，我們開發了一種集成技術，
大大提高了庫存績效。我們認為 DRL 代理可以幫助從業者
制定更好的補貨政策並協助他們確定訂單數量。
根據我們在分銷商的初步測試，我們表明 IIC 的 DRL 有潛力
在選定項目需求實現的情況下解決實際庫存問題。比較的
在先前的研究中，我們的研究對需求結構沒有參數假設，並且讓
DRL 代理直接從嘈雜的需求信號中學習。此外，我們釋放約束
政治
立
小動作和狀態空間，並考慮有限範圍和銷售損失。雖然發布
複雜的情況給我們的模型開發、性能帶來了嚴峻的挑戰
大
我們的 DRL 代理證明我們提出的算法可以有效地解決高維狀態
和行動空間，並在 IIC 問題中提供實用的排序策略。通過導航
ñ
在真實的業務環境中將尖端的人工智能開發應用到庫存控制中，我們的
建模工作期望對理論和實踐做出不平凡的貢獻
n
高科技供應鏈中的採購業務。開發 DRL 的基本要素
在
r
在n
一個一世
l
採購代理為學術界和工業界提供了寶貴的經驗和新的見解 CH和n C H 一世
G
社區。
最後，與其他機器學習算法一樣，我們的 DRL 解決方案也存在一些局限性。
首先，DRL的神經網絡調優是費力的，沒有人會認為這是一件容易的事
任務。在這項研究中，我們只嘗試了一種網格搜索方法，而不是探索其他超參數
優化技術，例如隨機搜索或遺傳算法。另一種可能
這項研究的擴展是增加處理連續動作空間的能力。我們
離散在 DDQN 中計算 Q 值的可能動作空間，但是一些 DRL 算法，
像策略梯度一樣，可以直接處理連續動作空間。
26
DOI:10.6814/NCCU202000375
參考
Arulkumaran, K., Deisenroth, P., Brundage, M., & Bharath, A. (2017)。
深度強化學習。 ArXiv：1708 05866v2
Chaharsooghi, S., Heydari, J., & Zegordi, S. (2008) 供應的強化學習模型
連鎖訂購管理：啤酒遊戲的應用。決策支持系統，
45（4）：949‑959。
Chollet, F. (2017)使用 Python 進行深度學習。曼寧出版社。
Giannoccaro, I. 和 Pontrandolfo, P. (2002) 供應鏈中的庫存管理：A
強化學習方法。國際生產經濟學雜誌， 78（2）：
政治
立大
153‑161。
Gijsbrechts, J.、Boute, R.、Zhang, D. 和 Van Mieghem, J. (2019) Can Deep Reinforcement
學習改善庫存管理？雙重採購績效，銷售損失
和多梯隊問題。可用的在 SSRN
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3302881。
ñ
Gosavi, A. (2009) 強化學習：教程調查和最新進展。通知
計算雜誌， 21（3）：177‑345。
n
在
r
在n
一個一世
l
Kingma, DP, & Ba, J. (2017)。亞當：隨機方法 CH和n C H 一世
G
優化。 ArXiv：1412 6980v9。
Lin, LJ (1992) 基於強化學習、規劃和
教學。機器學習， 8（3‑4）：293‑321。
Mnih V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D., & Riedmiller,
M. (2013) 使用深度強化學習玩 Atari。 ArXiv:1312 5602v1
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, AA, Veness, J., Bellemare, MG, Graves, A.,
Riedmiller, M., Fidjeland, AK, & Ostrovski, G., Petersen, S., Beattie, C., Sadik, A.,
Antonoglou, I.、King, H.、Kumaran, D.、Wierstra, D.、Legg, S. 和 Hassabis, D. (2015)
通過深度強化學習進行人工控制。自然， 518：529‑533。
27
DOI:10.6814/NCCU202000375
Oroojlooyjadid, A.、Snyder, L. 和 Taka , M. (2019) 將深度學習應用於報攤
問題。 IISE 交易，印刷中。
Oroojlooyjadid, A.、Nazari, M.、Snyder, L. 和 Taká , M. (2019b) 用於
啤酒遊戲：解決庫存優化的深度強化學習算法
問題。 ArXiv:1708 05924v3
Porteus, EL (2002)隨機庫存理論的基礎。斯坦福大學出版社，
加利福尼亞。
Qi, X., Wu, G., Boriboonsomsin, K., Barth, MJ, & Gonder, J. (2016) 數據驅動
基於強化學習的插電式混合動力實時能量管理系統
政治
電動汽車。交通研究記錄， 2572（1），1‑8。
立
Schaul, T., Quan, J., Antonoglou, I., & Silver, D. (2015)。優先體驗重播。 ArXiv：
大
1511 05952v4。
Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., Hubert, T.,
Baker, L., Lai, M., Bolton, A., Chen, Y., Lillicrap, T., Hui, F., Sifre, L., van den Driessche,
ñ
G., Graepel, T., Hassabis, D. (2017) 在沒有人類知識的情況下掌握圍棋遊戲。
自然 550：354‑359。
n
在
r
在n
一個一世
l
Sutton, RS 和 Barto, AG (2018)強化學習：介紹第二版， CH和n C H 一世
G
麻省理工學院出版社，劍橋。
Van Hasselt, H.、Guez, A. 和 Silver, D. (2015)。使用 Double 進行深度強化學習
Q‑學習。 ArXiv:1509 06461
Vinod, HD 和 Lòpez‑de‑Lacalle, J. (2009)。時間序列的最大熵引導。這
meboot R 包。 J 統計軟件， 29 (2009)，第 1‑19 頁
28
DOI:10.6814/NCCU202000375

600301 基於深度強化學習的智能存貨控制

Uploaded by

Copyright:

Available Formats

You might also like

600301 基於深度強化學習的智能存貨控制

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

600301 基於深度強化學習的智能存貨控制

Uploaded by

Copyright:

Available Formats

Machine Translated by Google

狀態， +1 ∈ .轉移概率矩陣 ( , )，顯示轉換的概率

或線性規劃（Sutton 和 Barto，2018 年）。然而，在現實中， ( , ) 通常是

( , ) = max [ + γmax ( ) | = , = , ] (2)

( , ) = (1 ‑ ) ( , ) + ( +1 + γ 最大值 ( +1, )), ∀ = 1,2, ..., (3)

在哪裡 ( +1, ) 是對最優未來價值的估計，並且 是學習率

( , ) ≈ ( , ; ) (4)

概率 1 ‑ , 或以概率選擇隨機動作 在時間t，增強

前一周的現有(EOH)庫存 ‑1。 由於每週的決定

周積壓（ ) 等於前一周的周初積壓 ( －1)減

= ( + ‑ , 0) (8)

如1 = 0， = ( /間隔1)*1, 3 = ( /interval－1) 2, ⋯ , =

包括 { ‑ , ... , } 和 是內存緩衝區的大小。在這裡，我們將體驗標準化

..7： 否則設置at= argmin ( , , )

11: 設置 = + * min ( , ; ‑) < , =

代替 = + * ( , ; ‑) 在 圖 4 與 = + *

..7： 否則設置at= argmin ( , , )

和 多梯隊 問題。 可用的 在 SSRN

You might also like

在哪裡 ( +1, ) 是對最優未來價值的估計，並且是學習率

概率 1 ‑ , 或以概率選擇隨機動作在時間t，增強

前一周的現有(EOH)庫存 ‑1。由於每週的決定

包括 { ‑ , ... , } 和是內存緩衝區的大小。在這裡，我們將體驗標準化

..7：否則設置at= argmin ( , , )

代替 = + * ( , ; ‑) 在圖 4 與 = + *

..7：否則設置at= argmin ( , , )

和多梯隊問題。可用的在 SSRN