Professional Documents
Culture Documents
ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند
ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند
مقدمه
ناوبری مستقل ربات موبایل را می توان به سه زیر سیستم تقسیم کرد :ادراک اطالعات ،تصمیم
گیری رفتار و کنترل دستکاری .برنامه ریزی مسیر اساس ناوبری و کنترل ربات متحرک است
(2017 ،Ghosh et al.؛ Orozco-Rosasو همکاران .)2019 ،هدف از برنامه ریزی مسیر
ربات تلفن همراه پیدا کردن یک مسیر از موقعیت فعلی به موقعیت هدف است .مسیر باید تا حد
ممکن کوتاه باشد ،صافی مسیر باید پویایی ربات متحرک را برآورده کند و ایمنی مسیر باید بدون
برخورد باشد (هان و سئو .)2017 ،بسته به اینکه چقدر اطالعات در مورد محیط زیست در فرآیند
برنامه ریزی مسیر شناخته شده است ،برنامه ریزی مسیر را می توان به برنامه ریزی مسیر جهانی
و برنامه ریزی مسیر محلی تقسیم کرد (لی و چو .)2018 ،روش های زیادی برای برنامه ریزی
مسیر وجود دارد .با توجه به الگوریتم ها و استراتژی های خاص ،الگوریتم های برنامه ریزی مسیر
را می توان تقریبا به چهار نوع تقسیم کرد :تطبیق الگو ،میدان پتانسیل مصنوعی ،ساخت نقشه و
هوش مصنوعی ( .)2018 ،Zhao et al.هر نوع الگوریتم برنامه ریزی مسیر دارای یک سناریو و
محدودیت های کاربردی بهینه است .برنامه ریزی مسیر فعلی ربات های متحرک به شدت به
محیط اطراف متکی است .عالوه بر محدودیت های برنامه ریزی مسیر سنتی ،ربات ها نمی توانند
یادگیری و قضاوت خود را در محیط های پیچیده تکمیل کنند ،تنگنا در توسعه تحقیقات در این
زمینه ( .)2017 ،Bakdi et al.بنابراین بسیار مهم است که یک روش برنامه ریزی مسیر با اتکای
کم به محیط زیست ایجاد شود که می تواند به سرعت با محیط اطراف سازگار شود .شبکه
یادگیری عمیق ) (DQNراهی برای مدل سازی محیط و محاسبه تابع انرژی برخورد است که علت
اصلی از دست دادن عملکرد است ( .)2019 ،Ohnishi et al.برای تحقق فرآیند برنامه ریزی
مسیر ،شبکه عصبی آموزش دیده است تا عملکرد از دست دادن را از طریق روش نزول گرادیان به
حداقل برساند .برای فعال کردن توانایی تعمیم بهتر در شبکه عصبی ،داده های مختلف نمونه برای
یادگیری و آموزش مورد نیاز است ،با این حال ،یک نمونه داده بیش از حد بزرگ زمان آموزش را
افزایش می دهد (شن و همکارانa2019 ،؛ سونگ و همکاران .)2020 ،یادگیری تقویتی عمیق
( ،)DRLبه عنوان یک روش مهم یادگیری ماشین ،توجه بیشتری را به خود جلب کرده است و
کاربردهای فزاینده ای از آن در برنامه ریزی مسیر ربات DRLوجود دارد ( Arulkumaran et
.)2017 ،al.عامل دانش را از طریق اکتشاف یک محیط به دست می اورد و با استفاده از فرایند
آزمون و خطا یاد می گیرد .روش DRLدارای مزایای آشکار در برنامه ریزی مسیر است و نیاز به
اطالعات قبلی کمتری در مورد محیط زیست دارد (2017 ،Wulfmeier et al.؛ ژنگ و لیو،
.)2020بر خالف روش یادگیری تحت نظارت ،یادگیری تقویتی نیازی به داده های نمونه زیادی
برای آموزش مانند روش های شبکه عصبی ندارد و داده های نمونه را در طول فرایند آموزش به
دست می آورد .در سال های اخیر ،محققان بر استفاده از الگوریتم های جدید یا الگوریتم های
همجوشی برای بهبود عملکرد ربات های تلفن همراه متمرکز شده اند (.)2018 ،Yan and Xu
لی و همکارانش دریافتند که اضافه کردن الگوریتم Q-Learningبه مسیر یادگیری تقویتی،
توانایی ربات ها را برای جلوگیری از موانع و برنامه ریزی محلی در محیط افزایش می دهد ( Lei
2018 ،et al.؛ .)2019 ،Liu et al.وانگ و همکارانش دریافتند که در مقایسه با الگوریتم توزیع
شده ) ،DQN (DDQNشبکه دو عمق درخت ( )TDDQNدارای مزایای سرعت همگرایی سریع و
تلفات کم است ( .)2020 ،Wang P. et al.با استفاده از یک شبکه عصبی برای تقویت سیستم
برنامه ریزی مسیر یادگیری .Wen et al ،پیشنهاد کرد که ربات متحرک می تواند بدون برخورد
با هر گونه موانع و سایر ربات های متحرک به موقعیت هدف هدایت شود و این روش با موفقیت به
پلت فرم ربات فیزیکی ( )2020 ،Wen et al.اعمال شد Botteghi .و همکاران یک استراتژی
اموزش تابع پاداش را در الگوریتم فیوژن معرفی کردند که نه تنها از نظر سرعت همگرایی از تابع
پاداش استاندارد بهتر عمل کرد ،بلکه تعداد برخوردها را ٪36.9از مراحل تکرار کاهش داد
()b2019 ،Shen et al.؛ .)2020 ،Botteghi et al.بنابراین الگوریتم همجوشی دارای
مزایای اشکاری در برنامه ریزی مسیر و عملکرد الگوریتم است .با این حال ،عملکرد برنامه ریزی
مسیر الگوریتم های همجوشی فعلی برجسته نیست .با توجه به کاستی های این نتایج تحقیق ،ما
یک سیستم برنامه ریزی مسیر ربات تلفن همراه را بر اساس شبکه های عصبی و یادگیری تقویتی
سلسله مراتبی طراحی کردیم .از طریق شبکه های عصبی ،این سیستم محیط را درک می کند و
استخراج ویژگی ها را برای تحقق تناسب از محیط به تابع عمل حالت انجام می دهد (چن،
.)2018نقشه برداری از وضعیت فعلی به عمل یادگیری تقویت سلسله مراتبی از طریق تابع
افزایش راضی است ،در نتیجه تحقق تقاضا برای ربات های متحرک .از لحاظ تئوری ،ترکیب
ارگانیک این دو می تواند عملکرد ربات های متحرک را در برنامه ریزی مسیر بهبود بخشد.
بنابراین ،در این مطالعه ،الگوریتم در یک ربات تلفن همراه تعبیه شد و الگوریتم طراحی شده با
مقایسه ان با سایر الگوریتم های برنامه ریزی مسیر در محیط ها و سناریوهای مختلف تایید شد.
Q-valueاولیه الگوریتم پیشنهادی سرعت همگرایی را افزایش داد ،تعداد حالت ها ،و همچنین
جهت حرکت و طول گام را دوباره تعریف کرد .عملکرد در زمان واقعی برنامه ریزی مسیر و صافی
ربات تلفن همراه به طور قابل توجهی بهبود یافته است و می تواند برای هدایت حرکت ربات و
بهبود تحرک الگوریتم استفاده شود (لیو و وانگ.)2019 ،
روش
مدل برنامه ریزی مسیر ربات موبایل
وظیفه برنامه ریزی مسیر که در این مطالعه مورد بررسی قرار گرفته است بر اساس یک ربات
متحرک دیفرانسیل دو چرخ است .این ربات می تواند سرعت دو چرخ رانندگی خود را برای
دستیابی به حرکات مسیر دلخواه مانند حرکت خطی ،چرخش و چرخش در دایره کنترل کند.
شکل 1ژست ربات را در فواصل زمانی مجاور نشان می دهد که بر اساس ان مدل سینماتیک
ایجاد می شود.
تنظیم شده است: ژست سیستم مختصات جهانی ربات متحرک در زمان tبه
باشد اگر مختصات جهانی ربات متحرک در زمان t+ Δtو
فاصله بین چرخ های رانندگی چپ و راست Lاست ،سرعت چرخ های رانندگی چپ و راست vӀو
سرعت خطی ربات و سرعت زاویه ای به ترتیب vو ،ωسرعت vربات متحرک در حالت حرکت
ایده ال است:
سرعت زاویه ای این ربات به این قرار است:
همانطور که در شکل θ1 =θ2=θ ،1نشان داده شده است ،پس از ،Δtزاویه عنوان ربات به شرح
زیر تغییر می کند:
با ترکیب معادالت فوق ،معادله حرکت ربات متحرک دیفرانسیل را می توان به صورت زیر به دست
اورد:
ANN
ANNیک مدل ریاضی یا محاسباتی است که ساختار و عملکرد شبکه های عصبی بیولوژیکی را
شبیه سازی می کند که برای تخمین یا تقریبی توابع استفاده می شود .با تعمیق مداوم اثار
تحقیقاتی در ،ANNsپیشرفت های بزرگی در زمینه های تشخیص گفتار ،تشخیص الگو ،کنترل
خودکار و براورد پیش بینی شده است ANN .با موفقیت بسیاری از مشکالتی را حل کرده است
که حل انها برای رایانه ها دشوار است و عملکرد خوبی را نشان می دهد.
در کاربرد عملی ،ANNاکثر مدل های شبکه عصبی از یک شبکه عصبی پس انتشار ( )BPNNو
تحوالت ان استفاده می کنند که دارای توانایی نقشه برداری غیر خطی خوب ،توانایی خود
یادگیری و تحمل خطا هستند .این عمدتا از جنبه های بسیاری مانند تشخیص الگو ،تقریب
عملکرد ،فشرده سازی داده ها ،براورد پیش بینی و طبقه بندی استفاده می کند .بنابراین ،نماینده
ترین BPNNبه عنوان پایه مدل سازی برای تجزیه و تحلیل مسیر ربات انتخاب می شودANN .
معموال از چندین الیه BPNNو چندین نورون تشکیل شده است که عمدتا به یک الیه ورودی،
یک الیه پنهان و یک الیه خروجی تقسیم می شوند ،جایی که بردار ورودی باید:
وزن اتصال بین نورون j-thدر الیه 𝑏 𝑙 i ،1-1است استانه نورون i-thدر الیه 1و net(l)i
است ورودی نورون i-thدر الیه 1است ،سپس معادله زیر به دست می رود:
در اینجا ،توابع الیه ورودی به الیه خروجی از تابع TANSIGمتناظر S-typeاستفاده می کنند،
الیه خروجی از تابع خطی PURELINاستفاده می کند ،قوانین یادگیری از تابع TRINGDX
استفاده می کنند و ارزیابی عملکرد از تابع MESاستفاده می کند ،جایی که شماره مدل به
1000بار تنظیم شده و دقت به 0.0001تنظیم شده است .بقیه پارامترهای پیش فرض سیستم
هستند و ساختار خاص در شکل 2نشان داده شده است.
اموزش تقویتی
یادگیری تقویتی یک روش یادگیری ماشین است که با تعامل با محیط یاد می گیرد .یک عامل از
روش های یادگیری تقویتی برای یادگیری استفاده می کند ،یعنی به دست اوردن دانش از دنباله
ای از اقدامات به دست امده از اکتشاف .داده های نمونه ان وجود ندارد ،به این معنی که با فرایند
یادگیری تحت نظارت متفاوت است .پس از اینکه یک عامل یک عمل را اجرا می کند ،بازخورد از
محیط دریافت می کند .این بازخورد ارزیابی عمل انجام شده توسط محیط زیست است و یک
فرایند "ازمون و خطا" است .ارزیابی اقدامات انجام شده توسط محیط ،ارزش پاداش فوری دریافت
شده توسط نماینده است .پاداش فوری یک سیگنال پیشرفته است که نشان دهنده تاثیر اجرای
این عمل بر نتیجه است .هر چه ارزش بزرگتر باشد ،اثر بهتر است ،در غیر این صورت تاثیر ضعیفی
خواهد داشت .مدل یادگیری تقویتی در شکل 3نشان داده شده است .فرایند یادگیری روش
یادگیری تقویتی یک فرایند اکتشافی است .این به طور مداوم از طریق واحدهای تصادفی تالش
می کند ،برای عمل بهینه برای به دست اوردن سیگنال پیشرفته محیط جستجو می کند و
احتمال انتخاب عمل بهینه توسط به روز رسانی تکراری را افزایش می دهد ،در نتیجه مجموعه ای
از راه حل های بهینه (مجموعه ای از توالی های عمل با باالترین مقدار پاداش) را پیدا می کند.
سیگنال تقویتی در یادگیری تقویتی از پاداش فوری بازخورد زیست محیطی می اید .این مقدار
پاداش نشان دهنده کیفیت عمل انجام شده است به جای اینکه به ماشین بگوید عمل صحیح
چیست .فرایند تعامل ماشین با محیط را می توان به عنوان پردازش تصمیم مارکوف ) (MDPدر
نظر گرفت .تا زمانی که مجموعه متغیر تصادفیX3.... Xt} ،X2 ، {X1معادله زیر را راضی می
کند ،مجموعه دارای ویژگی های مارکوف است :
هنگامی که حالت xتعیین می شود ،اقدامات قبل از دولت با اقدامات پس از دولت مرتبط نیست و
مستقل از یکدیگر است .در میان انها ،مجموعه حالت ، Sمجموعه عمل ، Aتابع پاداش ، Rتابع
انتقال حالت Tو تابع عینی MDPرا تشکیل می دهند .روند دولت از انتقال به شرح زیر است :
فرایند تصمیم مارکوف عمدتا تحقق مجموعه ای از توالی های عمل است ( α = πها) به طوری که
رسیدن به حداکثر ارزش از طریق تکرار ارزش ها ،مسئله پاداش تخفیف تجمعی
می تواند تحقق یابد .تابع مقدار بهینه به صورت زیر تعریف بهینه سازی MDP
می شود :
توابع پاداش گسسته نیاز به اطالعات پیشینی کمتری دارند و ساخت انها ساده است که کاربردهای
بهتری در اکتشاف و یادگیری در محیط های ناشناخته دارند .محاسبه به شرح زیر است:
تابع پاداش فقط پاداش عمل در حال حاضر اجرا شده را می دهد ،اما این تضمین نمی کند که هر
عمل می تواند پاداش دریافت کند .همانطور که اموزش پیشرفت می کند ،تابع ارزش به طور مداوم
بهینه سازی و همگرا می شود و عمل توسط استراتژی در یک حالت انتخاب می شود ،که تضمین
می کند که هر عمل نه تنها بزرگترین پاداش بلکه بزرگترین پاداش تخفیف تجمعی را نیز دریافت
می کند که تابع پاداش تجمعی محدود بدون تخفیف است:
جای که rtپاداشی است که بالفاصله توسط ماشین در زمان tبه دست می اورد و پاداش تجمعی
انباشت پاداش های فوری به دست امده از حالت شروع به حالت هدف است .تابع پاداش تخفیف
نامحدود است:
جایی که ’ yعامل تخفیف است و محدوده ارزش ≤ γ ≤ 1 0است که نشان دهنده محدودیت
یادگیری تقویتی است .عملکرد ارزش توجه بیشتری به پاداش های اینده دارد .عملکرد پاداش
متوسط این است:
پس از یادگیری ،استراتژی بهینه می تواند از تابع ارزش به دست امده از اموزش برای انتخاب
استراتژی عمل استفاده کند .معادله به شرح زیر است:
استراتژی انتخاب عمل Softmaxبرای تجزیه و تحلیل احتمال عمل استفاده می شود که به طور
کلی توسط تابع توزیع بولتزمن توصیف می شود .مدل ریاضی به شرح زیر است ،جایی که T
ضریب کنترل دما است.
( )1الگوریتم Q-Learningیک الگوریتم یادگیری با ارزش جدول است زیرا جدول مقدار Q
عملکرد حالت در طول تعامل بین ماشین و محیط ایجاد می شود .پاداش در محیط بر ارزش Q
مربوط به اقدام دولت تاثیر می گذارد Q-value .رفتار صحیح به تدریج تحت پاداش مثبت
افزایش می یابد و مقدار Qمربوط به رفتار اشتباه نیز تحت پاداش منفی کاهش می یابد .عمل
بهینه در استراتژی انتخاب عمل انتخاب می شود تا عامل استراتژی رفتار مطلوب را به دست اورد
()2016 ،Wei et al.؛ .)2017 ،Zhu et al.روش به روز رسانی Q-valueدر شکل 4به شرح
زیر است:
این است:
جایی که kضریب سود استX ،موقعیت فعلی ربات متحرک است Xg ،موقعیت هدف استj ،
پاداش تنظیم برنامه ریزی است و رابطه بین پاداش و گرانش به شرح زیر است:
الگوریتم بازیگر منتقد ) (A3Cروشی برای یادگیری تقویتی است .این یک مکانیسم ارزیابی برای
حل مشکل واریانس باال معرفی می کند .این از یک شبکه عصبی برای پیش بینی عمل انتخاب
شده استفاده می کند و به طور مستقیم نتیجه پیش بینی را به عقب می برد تا احتمال انتخاب
عمل بعدی را افزایش دهد .اگر تابع پاداش نشان دهد که عمل انتخاب شده بهینه نیست ،احتمال
انتخاب عمل دفعه بعد کاهش می یابد). 2018 ، (Haarnoja et al.معادله گرادیان استراتژی به
شرح زیر است:
)(5الگوریتم شیب سیاست قطعی عمیق ) (DDPGیک الگوریتم با پیشرفت های زیادی در
DQNاست که در ان الگوریتم A3Cاضافه می شود .این یک الگوریتم همجوشی شبکه عصبی و
یادگیری تقویتی است .جزئیات بهبود خاص در شکل 6نشان داده شده است.
)(6الگوریتم دوگانه ) DQN (DDQNحداکثر عمل در شبکه هدف را از طریق شبکه تخمین می
زند و از این عمل تخمینی برای انتخاب ( Qها) در شبکه هدف استفاده می کند (ژانگ و همکاران،
)2018؛). 2019 ، Han et al.اهداف TDباید:
ساخت و پایش محیط شبیه سازی
محیط شبیه سازی عمدتا از چارچوب چند رسانه ای pygletتحت پایتون برای طراحی برنامه
های تعاملی به عنوان پلت فرم شبیه سازی استفاده می کند .یک محیط استاتیک 200 * 200
پیکسل در ازمایش ساخته شده است .در محیط ،ربات متحرک دیگر یک ذره نیست ،بلکه توسط
یک دایره ابی با اندازه 10 * 10نشان داده شده است .دایره سبز Sنشان دهنده مختصات شروع
است .مختصات پیکسل موقعیت شروع ( )5 ،5است .دایره بنفش نشان دهنده موقعیت هدف است
و پنج منطقه سیاه با اندازه های مختلف در شکل موقعیت موانع است .منطقه سفید نشان می دهد
که هیچ مانعی در نقشه وجود ندارد ،که در ان ربات می تواند ازادانه حرکت کند .از انجا که ربات
در دنیای واقعی اندازه دارد ،زمانی که مرز ربات متحرک در تماس با مرز منطقه مانع است ،در نظر
گرفته می شود که برخورد کرده است و پس از برخورد ،شکست خورده و به موقعیت شروع
بازگردانده می شود .وضعیت ازمایش توسط حالت شطرنجی نشان داده می شود .وضعیت ازمایش
توسط حالت شطرنجی نشان داده می شود.
نتایج تجربی الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل
شکل 7نتایج تجربی برنامه ریزی مسیر ربات متحرک تحت الگوریتم های مختلف را نشان می
دهد .همانطور که در شکل 7نشان داده شده است ،تحت شرایط شروع و پایان مشابه ،تمام
الگوریتم ها می توانند به طور موثر از موانع جلوگیری کنند .با مقایسه ارقام ،B ،A7مشخص شد
که در الگوریتم های سنتی Q-Learningو ،A3Cالگوریتم یادگیری تقویتی به طور موثر تعداد
مراحل مسیر را کاهش می دهد.
با مقایسه ارقام ،C ،A7مشخص شد که معرفی یک الگوریتم شبکه عصبی بر اساس الگوریتم
سنتی Q-Learningمی تواند تعداد مسیرها را تا حد زیادی کاهش دهد و به همان اثر الگوریتم
یادگیری تقویتی دست یابد .با مقایسه ارقام ،D،C7مشخص شد که معرفی میدان نیرو بر اساس
شبکه عصبی سرعت اجرای الگوریتم را تا حد زیادی تسریع کرده و باعث کاهش قابل توجهی در
تعداد مراحل شده است .اگرچه الگوریتم می تواند به طور موثر از موانع جلوگیری کند ،اما
مسیرهای بی فایده زیادی را در پیش گرفته است .بنابراین ،الگوریتم DDQNانباشت مقدار Q
اضافه شد .همانطور که در شکل E7نشان داده شده است ،الگوریتم می تواند به طور موثر از شبکه
عصبی برای یادگیری و دستیابی به حداقل تعداد مراحل استفاده کند.
در مقایسه با الگوریتم ،DQNسرعت اجرای DDQNبهبود یافته و در مقایسه با الگوریتم
DDQN ،PDQNمی تواند مسیر بهینه را پیدا کند .همانطور که در شکل F7نشان داده شده
است ،یک الگوریتم یادگیری تقویتی بر اساس شبکه عصبی اضافه شد .مشخص شد که در مقایسه
با الگوریتم ،DDQNسریعتر اجرا می شود و مسیر بهینه ای دارد .با توجه به نتایج فوق ،الگوریتم
همجوشی با استفاده از یک شبکه عصبی و یادگیری تقویتی عملکرد بهتری در ازمایش مسیر دارد.
ارزیابی عملکرد الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل
شکل A 8زمان برنامه ریزی مسیر الگوریتم های مختلف تحت طول مسیر های مختلف را نشان
می دهد .نتایج نشان می دهد که با افزایش طول مسیر ،زمان برنامه ریزی مسیر نیز افزایش می
یابد ،جایی که زمان مورد نیاز متناسب با طول مسیر است .تا انجا که به الگوریتم های مختلف
مربوط می شود ،الگوریتم سنتی Q-Learningطوالنی ترین زمان را با میانگین s 78.35می
گیرد . PDQNکوتاه ترین زمان را می گیرد زیرا الگوریتم یک میدان نیرو را معرفی می کند و
باعث می شود الگوریتم به طور مداوم بهبود یابد .الگوریتم DDPGبر اساس شبکه های عصبی و
HRLموقعیت دوم را نشان می دهد که به طور متوسط 40.7ثانیه طول می کشد و ٪48.05
باالتر از الگوریتم سنتی ٪31.01 ،باالتر از الگوریتم DQNشبکه عصبی و ٪40.1باالتر از
الگوریتم تقویت است.
شکل .8ارزیابی عملکرد زمان و مراحل مختلف الگوریتم های برنامه ریزی مسیر ربات تلفن همراه
(الگوریتم QLنشان دهنده الگوریتم ) Q-Learningاست.
شکل B8تعداد مراحل مسیر الگوریتم های مختلف را در زمان های مختلف تکرار نشان می دهد.
با افزایش تعداد تکرارها ،الگوریتم های Q-Learningو A3Cتاثیر نمی گذارد زیرا این دو
الگوریتم قابلیت یادگیری عمیق ندارند .با افزایش تعداد تکرارها ،از نظر الگوریتم های دیگر ،تعداد
مراحل مسیر همچنان در همان مسیر کاهش می یابد .از الگوریتم های مختلف ،الگوریتم یادگیری
تقویتی به طور قابل توجهی بهتر از الگوریتم سنتی Q-Learningبا بهبود ٪20.56است .از
الگوریتم های مختلف شبکه عصبی ،الگوریتم DDPGدارای بهترین عملکرد است که دارای یک
گام مسیر متوسط 63مرحله است .در مقایسه با الگوریتم 20.25٪ ،DQNافزایش یافته است.
در مقایسه با الگوریتم ،DDQNتعداد مراحل مسیر ٪8.69افزایش می یابد .با توجه به نتایج
فوق ،الگوریتم PDQNدر شرایط مسیر مشابه کارامدتر است ،همانطور که یادگیری ادامه می یابد،
الگوریتم همجوشی از نظر مراحل مسیر بهتر عمل می کند.
شکل A9زمان همگرایی الگوریتم های مختلف را تحت مراحل مختلف مسیر نشان می دهد .نتایج
نشان می دهد که با افزایش گام های مسیر ،زمان همگرایی هر الگوریتم به طور مداوم افزایش می
یابد .در مقایسه با الگوریتم های Q-Learningو ،A3Cپس از اضافه کردن یادگیری تقویتی،
زمان همگرایی برنامه ریزی مسیر ربات ٪13.54افزایش می یابد .در مقایسه با الگوریتم های Q-
Learningو ،DQNپس از اضافه کردن الگوریتم شبکه عصبی ،زمان همگرایی برنامه ریزی
مسیر ربات ٪33.85افزایش می یابد که واضح ترین پیشرفت است .با مقایسه شبکه های عصبی
مختلف ،مشخص شد که زمان همگرایی الگوریتم DDQNبا افزایش Q-valueبه شدت بهبود
یافته است و زمان همگرایی برنامه ریزی مسیر در مقایسه با الگوریتم قبلی Q-Learning
94.44٪بهبود یافته است .برای الگوریتم DDPGمبتنی بر شبکه عصبی و ،HRLزمان همگرایی
الگوریتم تحت عدد ناهمزمان به طور متوسط s 1.34است که ٪55.52سریعتر از الگوریتم
DDQNبهینه
است.