Download as pdf or txt
Download as pdf or txt
You are on page 1of 18

‫ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند‪ .

‬برای حل این مشکالت‪ ،‬که‬


‫شامل یادگیری مستقل در برنامه ریزی مسیر‪ ،‬همگرایی آهسته برنامه ریزی مسیر و مسیرهای‬
‫برنامه ریزی شده است که صاف نیستند‪ ،‬می توان از شبکه های عصبی استفاده کرد تا ربات بتواند‬
‫محیط را درک کند و استخراج ویژگی ها را انجام دهد‪ ،‬که آنها را قادر می سازد تا تناسب محیط‬
‫زیست را برای عملکرد عمل حالت داشته باشند ‪ .‬با نقشه برداری از وضعیت فعلی این اقدامات از‬
‫طریق یادگیری تقویت سلسله مراتبی)‪ ، (HRL‬نیازهای ربات های متحرک برآورده می شود‪ .‬امکان‬
‫ساخت یک مدل برنامه ریزی مسیر برای ربات های متحرک بر اساس شبکه های عصبی و ‪HRL‬‬
‫وجود دارد‪ .‬در این مقاله الگوریتم پیشنهادی با الگوریتم های مختلف در برنامه ریزی مسیر مقایسه‬
‫می شود‪ .‬آن را تحت ارزیابی عملکرد برای به دست آوردن یک سیستم الگوریتم یادگیری بهینه‪.‬‬
‫سیستم الگوریتم بهینه در محیط ها و سناریوهای مختلف برای به دست اوردن شرایط یادگیری‬
‫بهینه مورد آزمایش قرار گرفت و در نتیجه اثربخشی الگوریتم پیشنهادی تایید شد‪ .‬گرادیان‬
‫سیاست قطعی عمیق (‪ ،)DDPG‬یک الگوریتم برنامه ریزی مسیر برای ربات های تلفن همراه بر‬
‫اساس شبکه های عصبی و یادگیری تقویت سلسله مراتبی‪ ،‬در همه جنبه ها بهتر از سایر الگوریتم‬
‫ها عمل می کند‪ .‬به طور خاص‪ ،‬در مقایسه با )‪،Double Deep Q-Learning (DDQN‬‬
‫‪ DDPG‬دارای زمان برنامه ریزی مسیر کوتاه تر و تعداد مراحل مسیر کاهش یافته است‪ .‬هنگام‬
‫معرفی یک مقدار نفوذ‪ ،‬این الگوریتم زمان همگرایی را در مقایسه با الگوریتم یادگیری ‪Q 91٪‬‬
‫کوتاه می کند و صافی مسیر برنامه ریزی شده را ‪ ٪79‬بهبود می بخشد‪ .‬این الگوریتم اثر تعمیم‬
‫خوبی در سناریوهای مختلف دارد‪ .‬این نتایج برای تحقیق در مورد هدایت‪ ،‬موقعیت دقیق و برنامه‬
‫ریزی مسیر ربات های متحرک اهمیت دارد‪.‬‬

‫مقدمه‬

‫ناوبری مستقل ربات موبایل را می توان به سه زیر سیستم تقسیم کرد‪ :‬ادراک اطالعات‪ ،‬تصمیم‬
‫گیری رفتار و کنترل دستکاری‪ .‬برنامه ریزی مسیر اساس ناوبری و کنترل ربات متحرک است‬
‫(‪2017 ،Ghosh et al.‬؛ ‪ Orozco-Rosas‬و همکاران‪ .)2019 ،‬هدف از برنامه ریزی مسیر‬
‫ربات تلفن همراه پیدا کردن یک مسیر از موقعیت فعلی به موقعیت هدف است‪ .‬مسیر باید تا حد‬
‫ممکن کوتاه باشد‪ ،‬صافی مسیر باید پویایی ربات متحرک را برآورده کند و ایمنی مسیر باید بدون‬
‫برخورد باشد (هان و سئو‪ .)2017 ،‬بسته به اینکه چقدر اطالعات در مورد محیط زیست در فرآیند‬
‫برنامه ریزی مسیر شناخته شده است‪ ،‬برنامه ریزی مسیر را می توان به برنامه ریزی مسیر جهانی‬
‫و برنامه ریزی مسیر محلی تقسیم کرد (لی و چو‪ .)2018 ،‬روش های زیادی برای برنامه ریزی‬
‫مسیر وجود دارد‪ .‬با توجه به الگوریتم ها و استراتژی های خاص‪ ،‬الگوریتم های برنامه ریزی مسیر‬
‫را می توان تقریبا به چهار نوع تقسیم کرد‪ :‬تطبیق الگو‪ ،‬میدان پتانسیل مصنوعی‪ ،‬ساخت نقشه و‬
‫هوش مصنوعی (‪ .)2018 ،Zhao et al.‬هر نوع الگوریتم برنامه ریزی مسیر دارای یک سناریو و‬
‫محدودیت های کاربردی بهینه است‪ .‬برنامه ریزی مسیر فعلی ربات های متحرک به شدت به‬
‫محیط اطراف متکی است‪ .‬عالوه بر محدودیت های برنامه ریزی مسیر سنتی‪ ،‬ربات ها نمی توانند‬
‫یادگیری و قضاوت خود را در محیط های پیچیده تکمیل کنند‪ ،‬تنگنا در توسعه تحقیقات در این‬
‫زمینه (‪ .)2017 ،Bakdi et al.‬بنابراین بسیار مهم است که یک روش برنامه ریزی مسیر با اتکای‬
‫کم به محیط زیست ایجاد شود که می تواند به سرعت با محیط اطراف سازگار شود‪ .‬شبکه‬
‫یادگیری عمیق )‪ (DQN‬راهی برای مدل سازی محیط و محاسبه تابع انرژی برخورد است که علت‬
‫اصلی از دست دادن عملکرد است (‪ .)2019 ،Ohnishi et al.‬برای تحقق فرآیند برنامه ریزی‬
‫مسیر‪ ،‬شبکه عصبی آموزش دیده است تا عملکرد از دست دادن را از طریق روش نزول گرادیان به‬
‫حداقل برساند‪ .‬برای فعال کردن توانایی تعمیم بهتر در شبکه عصبی‪ ،‬داده های مختلف نمونه برای‬
‫یادگیری و آموزش مورد نیاز است‪ ،‬با این حال‪ ،‬یک نمونه داده بیش از حد بزرگ زمان آموزش را‬
‫افزایش می دهد (شن و همکاران‪a2019 ،‬؛ سونگ و همکاران‪ .)2020 ،‬یادگیری تقویتی عمیق‬
‫(‪ ،)DRL‬به عنوان یک روش مهم یادگیری ماشین‪ ،‬توجه بیشتری را به خود جلب کرده است و‬
‫کاربردهای فزاینده ای از آن در برنامه ریزی مسیر ربات ‪ DRL‬وجود دارد ( ‪Arulkumaran et‬‬
‫‪ .)2017 ،al.‬عامل دانش را از طریق اکتشاف یک محیط به دست می اورد و با استفاده از فرایند‬
‫آزمون و خطا یاد می گیرد‪ .‬روش ‪ DRL‬دارای مزایای آشکار در برنامه ریزی مسیر است و نیاز به‬
‫اطالعات قبلی کمتری در مورد محیط زیست دارد (‪2017 ،Wulfmeier et al.‬؛ ژنگ و لیو‪،‬‬
‫‪ .)2020‬بر خالف روش یادگیری تحت نظارت‪ ،‬یادگیری تقویتی نیازی به داده های نمونه زیادی‬
‫برای آموزش مانند روش های شبکه عصبی ندارد و داده های نمونه را در طول فرایند آموزش به‬
‫دست می آورد‪ .‬در سال های اخیر‪ ،‬محققان بر استفاده از الگوریتم های جدید یا الگوریتم های‬
‫همجوشی برای بهبود عملکرد ربات های تلفن همراه متمرکز شده اند (‪.)2018 ،Yan and Xu‬‬
‫لی و همکارانش دریافتند که اضافه کردن الگوریتم ‪ Q-Learning‬به مسیر یادگیری تقویتی‪،‬‬
‫توانایی ربات ها را برای جلوگیری از موانع و برنامه ریزی محلی در محیط افزایش می دهد ( ‪Lei‬‬
‫‪2018 ،et al.‬؛ ‪ .)2019 ،Liu et al.‬وانگ و همکارانش دریافتند که در مقایسه با الگوریتم توزیع‬
‫شده )‪ ،DQN (DDQN‬شبکه دو عمق درخت (‪ )TDDQN‬دارای مزایای سرعت همگرایی سریع و‬
‫تلفات کم است (‪ .)2020 ،Wang P. et al.‬با استفاده از یک شبکه عصبی برای تقویت سیستم‬
‫برنامه ریزی مسیر یادگیری‪ .Wen et al ،‬پیشنهاد کرد که ربات متحرک می تواند بدون برخورد‬
‫با هر گونه موانع و سایر ربات های متحرک به موقعیت هدف هدایت شود و این روش با موفقیت به‬
‫پلت فرم ربات فیزیکی (‪ )2020 ،Wen et al.‬اعمال شد‪ Botteghi .‬و همکاران یک استراتژی‬
‫اموزش تابع پاداش را در الگوریتم فیوژن معرفی کردند که نه تنها از نظر سرعت همگرایی از تابع‬
‫پاداش استاندارد بهتر عمل کرد‪ ،‬بلکه تعداد برخوردها را ‪ ٪36.9‬از مراحل تکرار کاهش داد‬
‫(‪)b2019 ،Shen et al.‬؛ ‪ .)2020 ،Botteghi et al.‬بنابراین الگوریتم همجوشی دارای‬
‫مزایای اشکاری در برنامه ریزی مسیر و عملکرد الگوریتم است‪ .‬با این حال‪ ،‬عملکرد برنامه ریزی‬
‫مسیر الگوریتم های همجوشی فعلی برجسته نیست‪ .‬با توجه به کاستی های این نتایج تحقیق‪ ،‬ما‬
‫یک سیستم برنامه ریزی مسیر ربات تلفن همراه را بر اساس شبکه های عصبی و یادگیری تقویتی‬
‫سلسله مراتبی طراحی کردیم‪ .‬از طریق شبکه های عصبی‪ ،‬این سیستم محیط را درک می کند و‬
‫استخراج ویژگی ها را برای تحقق تناسب از محیط به تابع عمل حالت انجام می دهد (چن‪،‬‬
‫‪ .)2018‬نقشه برداری از وضعیت فعلی به عمل یادگیری تقویت سلسله مراتبی از طریق تابع‬
‫افزایش راضی است‪ ،‬در نتیجه تحقق تقاضا برای ربات های متحرک‪ .‬از لحاظ تئوری‪ ،‬ترکیب‬
‫ارگانیک این دو می تواند عملکرد ربات های متحرک را در برنامه ریزی مسیر بهبود بخشد‪.‬‬
‫بنابراین‪ ،‬در این مطالعه‪ ،‬الگوریتم در یک ربات تلفن همراه تعبیه شد و الگوریتم طراحی شده با‬
‫مقایسه ان با سایر الگوریتم های برنامه ریزی مسیر در محیط ها و سناریوهای مختلف تایید شد‪.‬‬
‫‪ Q-value‬اولیه الگوریتم پیشنهادی سرعت همگرایی را افزایش داد‪ ،‬تعداد حالت ها‪ ،‬و همچنین‬
‫جهت حرکت و طول گام را دوباره تعریف کرد‪ .‬عملکرد در زمان واقعی برنامه ریزی مسیر و صافی‬
‫ربات تلفن همراه به طور قابل توجهی بهبود یافته است و می تواند برای هدایت حرکت ربات و‬
‫بهبود تحرک الگوریتم استفاده شود (لیو و وانگ‪.)2019 ،‬‬

‫روش‬
‫مدل برنامه ریزی مسیر ربات موبایل‬

‫وظیفه برنامه ریزی مسیر که در این مطالعه مورد بررسی قرار گرفته است بر اساس یک ربات‬
‫متحرک دیفرانسیل دو چرخ است‪ .‬این ربات می تواند سرعت دو چرخ رانندگی خود را برای‬
‫دستیابی به حرکات مسیر دلخواه مانند حرکت خطی‪ ،‬چرخش و چرخش در دایره کنترل کند‪.‬‬
‫شکل ‪ 1‬ژست ربات را در فواصل زمانی مجاور نشان می دهد که بر اساس ان مدل سینماتیک‬
‫ایجاد می شود‪.‬‬

‫تنظیم شده است‪:‬‬ ‫ژست سیستم مختصات جهانی ربات متحرک در زمان ‪ t‬به‬
‫باشد‬ ‫اگر مختصات جهانی ربات متحرک در زمان ‪ t+ Δt‬و‬
‫فاصله بین چرخ های رانندگی چپ و راست ‪ L‬است‪ ،‬سرعت چرخ های رانندگی چپ و راست ‪ vӀ‬و‬
‫سرعت خطی ربات و سرعت زاویه ای به ترتیب ‪ v‬و ‪ ،ω‬سرعت ‪ v‬ربات متحرک در حالت حرکت‬
‫ایده ال است‪:‬‬
‫سرعت زاویه ای این ربات به این قرار است‪:‬‬

‫شعاع انحنای لحظه ای ‪ R‬به این صورت است‪:‬‬

‫همانطور که در شکل ‪ θ1 =θ2=θ ،1‬نشان داده شده است‪ ،‬پس از ‪ ،Δt‬زاویه عنوان ربات به شرح‬
‫زیر تغییر می کند‪:‬‬

‫می تواند‬ ‫به سمت‬ ‫حرکت از موقعیت‬


‫به عنوان یک قوس دایره ای با شعاع ‪ R‬در نظر گرفته شود‪ .‬اگر قوس برای تقریبی مسیر واقعی‬
‫ربات استفاده شود‪ ،‬رابطه هندسی باید‪:‬‬

‫با ترکیب معادالت فوق‪ ،‬معادله حرکت ربات متحرک دیفرانسیل را می توان به صورت زیر به دست‬
‫اورد‪:‬‬

‫‪ANN‬‬
‫‪ ANN‬یک مدل ریاضی یا محاسباتی است که ساختار و عملکرد شبکه های عصبی بیولوژیکی را‬
‫شبیه سازی می کند که برای تخمین یا تقریبی توابع استفاده می شود‪ .‬با تعمیق مداوم اثار‬
‫تحقیقاتی در ‪ ،ANNs‬پیشرفت های بزرگی در زمینه های تشخیص گفتار‪ ،‬تشخیص الگو‪ ،‬کنترل‬
‫خودکار و براورد پیش بینی شده است‪ ANN .‬با موفقیت بسیاری از مشکالتی را حل کرده است‬
‫که حل انها برای رایانه ها دشوار است و عملکرد خوبی را نشان می دهد‪.‬‬
‫در کاربرد عملی ‪ ،ANN‬اکثر مدل های شبکه عصبی از یک شبکه عصبی پس انتشار (‪ )BPNN‬و‬
‫تحوالت ان استفاده می کنند که دارای توانایی نقشه برداری غیر خطی خوب‪ ،‬توانایی خود‬
‫یادگیری و تحمل خطا هستند‪ .‬این عمدتا از جنبه های بسیاری مانند تشخیص الگو‪ ،‬تقریب‬
‫عملکرد‪ ،‬فشرده سازی داده ها‪ ،‬براورد پیش بینی و طبقه بندی استفاده می کند‪ .‬بنابراین‪ ،‬نماینده‬
‫ترین ‪ BPNN‬به عنوان پایه مدل سازی برای تجزیه و تحلیل مسیر ربات انتخاب می شود‪ANN .‬‬
‫معموال از چندین الیه ‪ BPNN‬و چندین نورون تشکیل شده است که عمدتا به یک الیه ورودی‪،‬‬
‫یک الیه پنهان و یک الیه خروجی تقسیم می شوند‪ ،‬جایی که بردار ورودی باید‪:‬‬

‫بردار خروجی باید ‪:‬‬

‫ورودی نورون الیه پنهان باید ‪:‬‬

‫که در ان ‪ : SL‬تعداد نورون ها در الیه ‪ 1‬است؛ با فرض اینکه ‪𝑤 𝑙 ij‬‬

‫وزن اتصال بین نورون ‪ j-th‬در الیه ‪ 𝑏 𝑙 i ،1-1‬است استانه نورون ‪ i-th‬در الیه ‪ 1‬و ‪net(l)i‬‬
‫است ورودی نورون ‪ i-th‬در الیه ‪ 1‬است‪ ،‬سپس معادله زیر به دست می رود‪:‬‬

‫در اینجا‪ ،‬توابع الیه ورودی به الیه خروجی از تابع ‪ TANSIG‬متناظر ‪ S-type‬استفاده می کنند‪،‬‬
‫الیه خروجی از تابع خطی ‪ PURELIN‬استفاده می کند‪ ،‬قوانین یادگیری از تابع ‪TRINGDX‬‬
‫استفاده می کنند و ارزیابی عملکرد از تابع ‪ MES‬استفاده می کند‪ ،‬جایی که شماره مدل به‬
‫‪ 1000‬بار تنظیم شده و دقت به ‪ 0.0001‬تنظیم شده است‪ .‬بقیه پارامترهای پیش فرض سیستم‬
‫هستند و ساختار خاص در شکل ‪ 2‬نشان داده شده است‪.‬‬

‫اموزش تقویتی‬

‫یادگیری تقویتی یک روش یادگیری ماشین است که با تعامل با محیط یاد می گیرد‪ .‬یک عامل از‬
‫روش های یادگیری تقویتی برای یادگیری استفاده می کند‪ ،‬یعنی به دست اوردن دانش از دنباله‬
‫ای از اقدامات به دست امده از اکتشاف‪ .‬داده های نمونه ان وجود ندارد‪ ،‬به این معنی که با فرایند‬
‫یادگیری تحت نظارت متفاوت است‪ .‬پس از اینکه یک عامل یک عمل را اجرا می کند‪ ،‬بازخورد از‬
‫محیط دریافت می کند‪ .‬این بازخورد ارزیابی عمل انجام شده توسط محیط زیست است و یک‬
‫فرایند "ازمون و خطا" است‪ .‬ارزیابی اقدامات انجام شده توسط محیط‪ ،‬ارزش پاداش فوری دریافت‬
‫شده توسط نماینده است‪ .‬پاداش فوری یک سیگنال پیشرفته است که نشان دهنده تاثیر اجرای‬
‫این عمل بر نتیجه است‪ .‬هر چه ارزش بزرگتر باشد‪ ،‬اثر بهتر است‪ ،‬در غیر این صورت تاثیر ضعیفی‬
‫خواهد داشت‪ .‬مدل یادگیری تقویتی در شکل ‪ 3‬نشان داده شده است‪ .‬فرایند یادگیری روش‬
‫یادگیری تقویتی یک فرایند اکتشافی است‪ .‬این به طور مداوم از طریق واحدهای تصادفی تالش‬
‫می کند‪ ،‬برای عمل بهینه برای به دست اوردن سیگنال پیشرفته محیط جستجو می کند و‬
‫احتمال انتخاب عمل بهینه توسط به روز رسانی تکراری را افزایش می دهد‪ ،‬در نتیجه مجموعه ای‬
‫از راه حل های بهینه (مجموعه ای از توالی های عمل با باالترین مقدار پاداش) را پیدا می کند‪.‬‬
‫سیگنال تقویتی در یادگیری تقویتی از پاداش فوری بازخورد زیست محیطی می اید‪ .‬این مقدار‬
‫پاداش نشان دهنده کیفیت عمل انجام شده است به جای اینکه به ماشین بگوید عمل صحیح‬
‫چیست‪ .‬فرایند تعامل ماشین با محیط را می توان به عنوان پردازش تصمیم مارکوف )‪ (MDP‬در‬
‫نظر گرفت‪ .‬تا زمانی که مجموعه متغیر تصادفی‪X3.... Xt} ،X2 ، {X1‬معادله زیر را راضی می‬
‫کند‪ ،‬مجموعه دارای ویژگی های مارکوف است ‪:‬‬

‫هنگامی که حالت ‪ x‬تعیین می شود‪ ،‬اقدامات قبل از دولت با اقدامات پس از دولت مرتبط نیست و‬
‫مستقل از یکدیگر است‪ .‬در میان انها‪ ،‬مجموعه حالت‪ ، S‬مجموعه عمل‪ ، A‬تابع پاداش‪ ، R‬تابع‬
‫انتقال حالت ‪ T‬و تابع عینی ‪ MDP‬را تشکیل می دهند‪ .‬روند دولت از انتقال به شرح زیر است ‪:‬‬

‫فرایند تصمیم مارکوف عمدتا تحقق مجموعه ای از توالی های عمل است ‪( α = π‬ها) به طوری که‬
‫رسیدن به حداکثر ارزش از طریق تکرار ارزش ها‪ ،‬مسئله‬ ‫پاداش تخفیف تجمعی‬
‫می تواند تحقق یابد‪ .‬تابع مقدار بهینه به صورت زیر تعریف‬ ‫بهینه سازی ‪MDP‬‬
‫می شود ‪:‬‬

‫سپس استراتژی بهینه به شرح زیر محاسبه می شود ‪:‬‬


‫سیستم یادگیری تقویتی عمدتا از سه بخش تشکیل شده است‪ :‬عملکرد پاداش‪ ،‬عملکرد ارزش و‬
‫استراتژی انتخاب عمل‪ .‬در میان انها‪ ،‬عملکرد تقویتی به عملکرد پاداش مداوم تقسیم می شود‪ .‬با‬
‫ایجاد یک مدل ریاضی بین حالت و بازخورد زیست محیطی درک شده توسط عامل در هر لحظه‪،‬‬
‫عامل می تواند ارزیابی محیط زیست در هر حالت را به دست اورد‪ ،‬اطالعات راهنمایی بیشتری را‬
‫در طول فرایند اموزش عامل ارائه دهد و عامل می تواند استراتژی بهینه را سریعتر پیدا کند‪.‬‬
‫محاسبه به شرح زیر است ‪:‬‬

‫توابع پاداش گسسته نیاز به اطالعات پیشینی کمتری دارند و ساخت انها ساده است که کاربردهای‬
‫بهتری در اکتشاف و یادگیری در محیط های ناشناخته دارند‪ .‬محاسبه به شرح زیر است‪:‬‬

‫تابع پاداش فقط پاداش عمل در حال حاضر اجرا شده را می دهد‪ ،‬اما این تضمین نمی کند که هر‬
‫عمل می تواند پاداش دریافت کند‪ .‬همانطور که اموزش پیشرفت می کند‪ ،‬تابع ارزش به طور مداوم‬
‫بهینه سازی و همگرا می شود و عمل توسط استراتژی در یک حالت انتخاب می شود‪ ،‬که تضمین‬
‫می کند که هر عمل نه تنها بزرگترین پاداش بلکه بزرگترین پاداش تخفیف تجمعی را نیز دریافت‬
‫می کند که تابع پاداش تجمعی محدود بدون تخفیف است‪:‬‬
‫جای که ‪ rt‬پاداشی است که بالفاصله توسط ماشین در زمان ‪ t‬به دست می اورد و پاداش تجمعی‬
‫انباشت پاداش های فوری به دست امده از حالت شروع به حالت هدف است‪ .‬تابع پاداش تخفیف‬
‫نامحدود است‪:‬‬

‫جایی که ’‪ y‬عامل تخفیف است و محدوده ارزش ‪ ≤ γ ≤ 1 0‬است که نشان دهنده محدودیت‬
‫یادگیری تقویتی است‪ .‬عملکرد ارزش توجه بیشتری به پاداش های اینده دارد‪ .‬عملکرد پاداش‬
‫متوسط این است‪:‬‬

‫پس از یادگیری‪ ،‬استراتژی بهینه می تواند از تابع ارزش به دست امده از اموزش برای انتخاب‬
‫استراتژی عمل استفاده کند‪ .‬معادله به شرح زیر است‪:‬‬

‫استراتژی انتخاب عمل ‪ Softmax‬برای تجزیه و تحلیل احتمال عمل استفاده می شود که به طور‬
‫کلی توسط تابع توزیع بولتزمن توصیف می شود‪ .‬مدل ریاضی به شرح زیر است‪ ،‬جایی که ‪T‬‬
‫ضریب کنترل دما است‪.‬‬

‫الگوریتم های مختلف تشخیص برنامه ریزی مسیر‬


‫در اینجا الگوریتم های مختلفی برای تعیین مزایای الگوریتم پیشنهادی مقایسه می شوند‪ .‬الگوریتم‬
‫های شناخت زیادی برای برنامه ریزی مسیر ربات های متحرک وجود دارد‪ .‬این الگوریتم های‬
‫برنامه ریزی مسیر همه بر اساس اصل موقعیت نقطه ویژگی است که در هر جهت تصاویر عمدتا از‬
‫طریق یک پنجره گاوسی تغییر می کند‪ .‬از طریق این حرکت‪ ،‬ماتریس همبستگی پنجره های‬
‫مختلف محاسبه می شود و داده های تصویری محیط به دست می اید‪.‬‬

‫(‪ )1‬الگوریتم ‪ Q-Learning‬یک الگوریتم یادگیری با ارزش جدول است زیرا جدول مقدار ‪Q‬‬
‫عملکرد حالت در طول تعامل بین ماشین و محیط ایجاد می شود‪ .‬پاداش در محیط بر ارزش ‪Q‬‬
‫مربوط به اقدام دولت تاثیر می گذارد‪ Q-value .‬رفتار صحیح به تدریج تحت پاداش مثبت‬
‫افزایش می یابد و مقدار ‪ Q‬مربوط به رفتار اشتباه نیز تحت پاداش منفی کاهش می یابد‪ .‬عمل‬
‫بهینه در استراتژی انتخاب عمل انتخاب می شود تا عامل استراتژی رفتار مطلوب را به دست اورد‬
‫(‪)2016 ،Wei et al.‬؛ ‪ .)2017 ،Zhu et al.‬روش به روز رسانی ‪ Q-value‬در شکل ‪ 4‬به شرح‬
‫زیر است‪:‬‬

‫شکل ‪ .4‬نمودار شماتیک روش برنامه ریزی مسیر‪Q-‬‬


‫‪Learning.‬‬
‫(‪ )2‬الگوریتم ‪ DQN‬یک فرایند استفاده از شبکه عصبی برای تقریبی تابع ارزش است‪ .‬همانطور که‬
‫در شکل ‪ 5‬نشان داده شده است‪ ،‬تابع مقدار بهینه ‪ θ) ،α ،Q (s‬با تنظیم وزن شبکه عصبی‬
‫تقریبی است‪ .‬تابع مقدار به روز رسانی پارامترها را تغییر می دهد‪ .‬پس از اتمام اموزش شبکه‬
‫عصبی‪ ،‬پارامترها تعیین می شوند و مقدار تابع مربوطه دیگر تغییر نخواهد کرد‪ .‬سپس فرایند‬
‫اموزش همگرا می شود (لیو و هاجینز‪2017 ،‬؛ ‪ .)2017 ،Zhu et al.‬معادله به روز رسانی مکان‬

‫این است‪:‬‬

‫شکل ‪ .5‬نمودار شماتیک ساختار تابع تقریب شبکه‬


‫‪.‬عصبی‬

‫)‪(3‬پتانسیل )‪ DQN (PDQN‬الگوریتم بهبود الگوریتم ‪ DQN‬است‪ .‬هدف اصلی ان سرعت‬


‫بخشیدن به سرعت در حال اجرا الگوریتم است‪ .‬بر این اساس‪ ،‬روش میدان‬
‫پتانسیل مصنوعی اضافه می شود (گوپتا و همکاران‪ .)2019 ،‬میدان گرانشی به‬
‫شرح زیر محاسبه می شود‪:‬‬

‫جایی که ‪ k‬ضریب سود است‪X ،‬موقعیت فعلی ربات متحرک است‪ Xg ،‬موقعیت هدف است‪j ،‬‬
‫پاداش تنظیم برنامه ریزی است و رابطه بین پاداش و گرانش به شرح زیر است‪:‬‬

‫الگوریتم بازیگر منتقد )‪ (A3C‬روشی برای یادگیری تقویتی است‪ .‬این یک مکانیسم ارزیابی برای‬
‫حل مشکل واریانس باال معرفی می کند‪ .‬این از یک شبکه عصبی برای پیش بینی عمل انتخاب‬
‫شده استفاده می کند و به طور مستقیم نتیجه پیش بینی را به عقب می برد تا احتمال انتخاب‬
‫عمل بعدی را افزایش دهد‪ .‬اگر تابع پاداش نشان دهد که عمل انتخاب شده بهینه نیست‪ ،‬احتمال‬
‫انتخاب عمل دفعه بعد کاهش می یابد‪). 2018 ، (Haarnoja et al.‬معادله گرادیان استراتژی به‬
‫شرح زیر است‪:‬‬

‫)‪(5‬الگوریتم شیب سیاست قطعی عمیق )‪ (DDPG‬یک الگوریتم با پیشرفت های زیادی در‬
‫‪DQN‬است که در ان الگوریتم ‪ A3C‬اضافه می شود‪ .‬این یک الگوریتم همجوشی شبکه عصبی و‬
‫یادگیری تقویتی است‪ .‬جزئیات بهبود خاص در شکل ‪ 6‬نشان داده شده است‪.‬‬

‫شکل ‪ .6‬ساختار الگوریتم شبکه‬


‫‪DDPG‬‬

‫)‪(6‬الگوریتم دوگانه )‪ DQN (DDQN‬حداکثر عمل در شبکه هدف را از طریق شبکه تخمین می‬
‫زند و از این عمل تخمینی برای انتخاب ‪( Q‬ها) در شبکه هدف استفاده می کند (ژانگ و همکاران‪،‬‬
‫‪)2018‬؛‪). 2019 ، Han et al.‬اهداف ‪ TD‬باید‪:‬‬
‫ساخت و پایش محیط شبیه سازی‬

‫محیط شبیه سازی عمدتا از چارچوب چند رسانه ای ‪ pyglet‬تحت پایتون برای طراحی برنامه‬
‫های تعاملی به عنوان پلت فرم شبیه سازی استفاده می کند‪ .‬یک محیط استاتیک ‪200 * 200‬‬
‫پیکسل در ازمایش ساخته شده است‪ .‬در محیط‪ ،‬ربات متحرک دیگر یک ذره نیست‪ ،‬بلکه توسط‬
‫یک دایره ابی با اندازه ‪ 10 * 10‬نشان داده شده است‪ .‬دایره سبز ‪ S‬نشان دهنده مختصات شروع‬
‫است‪ .‬مختصات پیکسل موقعیت شروع (‪ )5 ،5‬است‪ .‬دایره بنفش نشان دهنده موقعیت هدف است‬
‫و پنج منطقه سیاه با اندازه های مختلف در شکل موقعیت موانع است‪ .‬منطقه سفید نشان می دهد‬
‫که هیچ مانعی در نقشه وجود ندارد‪ ،‬که در ان ربات می تواند ازادانه حرکت کند‪ .‬از انجا که ربات‬
‫در دنیای واقعی اندازه دارد‪ ،‬زمانی که مرز ربات متحرک در تماس با مرز منطقه مانع است‪ ،‬در نظر‬
‫گرفته می شود که برخورد کرده است و پس از برخورد‪ ،‬شکست خورده و به موقعیت شروع‬
‫بازگردانده می شود‪ .‬وضعیت ازمایش توسط حالت شطرنجی نشان داده می شود‪ .‬وضعیت ازمایش‬
‫توسط حالت شطرنجی نشان داده می شود‪.‬‬

‫تشخیص عمدتا از تابع )( ‪ summary.value.add‬در ‪ TensorFlow‬برای اضافه کردن‬


‫متغیرها به گزارش نظارت استفاده می کند‪ .‬تغییرات در داده های فرایند اموزش را می توان از‬
‫طریق ‪ TensorFlow‬مشاهده کرد‪ .‬پس از یادگیری‪ ،‬پارامترهای شبکه عصبی با استفاده از تابع‬
‫)( ‪tf.train.Saver‬ذخیره می شوند و شبکه عصبی دوباره بارگذاری می شود و دوباره اجرا می‬
‫شود تا اثر پس از اتمام یادگیری را نشان دهد‪ .‬نتایج تجربی نشان می دهد که ربات متحرک می‬
‫تواند از موانع پویا در زمان جلوگیری کند و پس از اجتناب از موانع پویا‪ ،‬مسیر بهینه ای برای‬
‫رسیدن به موقعیت هدف پیدا کند‪ .‬در ازمایش‪ ،‬تابع ارزش شبکه کپی‪ ،‬میانگین تعداد مراحل مورد‬
‫استفاده برای رسیدن به موقعیت هدف و میانگین پاداش تجمعی شبکه کپی ذخیره می شود‪ .‬در‬
‫پایان فرایند یادگیری و اموزش‪ ،‬فرایند تغییر سه داده را می توان از طریق ‪TensorBoard‬‬
‫مشاهده کرد‪.‬‬

‫نتایج و بحث ها‬

‫نتایج تجربی الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل‬
‫شکل ‪ 7‬نتایج تجربی برنامه ریزی مسیر ربات متحرک تحت الگوریتم های مختلف را نشان می‬
‫دهد‪ .‬همانطور که در شکل ‪ 7‬نشان داده شده است‪ ،‬تحت شرایط شروع و پایان مشابه‪ ،‬تمام‬
‫الگوریتم ها می توانند به طور موثر از موانع جلوگیری کنند‪ .‬با مقایسه ارقام ‪ ،B ،A7‬مشخص شد‬
‫که در الگوریتم های سنتی ‪ Q-Learning‬و ‪ ،A3C‬الگوریتم یادگیری تقویتی به طور موثر تعداد‬
‫مراحل مسیر را کاهش می دهد‪.‬‬

‫شکل ‪ .7‬نتایج تجربی الگوریتم های مختلف برنامه ریزی‬


‫مسیر ربات های متحرک‬

‫با مقایسه ارقام ‪ ،C ،A7‬مشخص شد که معرفی یک الگوریتم شبکه عصبی بر اساس الگوریتم‬
‫سنتی ‪ Q-Learning‬می تواند تعداد مسیرها را تا حد زیادی کاهش دهد و به همان اثر الگوریتم‬
‫یادگیری تقویتی دست یابد‪ .‬با مقایسه ارقام ‪ ،D،C7‬مشخص شد که معرفی میدان نیرو بر اساس‬
‫شبکه عصبی سرعت اجرای الگوریتم را تا حد زیادی تسریع کرده و باعث کاهش قابل توجهی در‬
‫تعداد مراحل شده است‪ .‬اگرچه الگوریتم می تواند به طور موثر از موانع جلوگیری کند‪ ،‬اما‬
‫مسیرهای بی فایده زیادی را در پیش گرفته است‪ .‬بنابراین‪ ،‬الگوریتم ‪ DDQN‬انباشت مقدار ‪Q‬‬
‫اضافه شد‪ .‬همانطور که در شکل ‪ E7‬نشان داده شده است‪ ،‬الگوریتم می تواند به طور موثر از شبکه‬
‫عصبی برای یادگیری و دستیابی به حداقل تعداد مراحل استفاده کند‪.‬‬
‫در مقایسه با الگوریتم ‪ ،DQN‬سرعت اجرای ‪ DDQN‬بهبود یافته و در مقایسه با الگوریتم‬
‫‪ DDQN ،PDQN‬می تواند مسیر بهینه را پیدا کند‪ .‬همانطور که در شکل ‪ F7‬نشان داده شده‬
‫است‪ ،‬یک الگوریتم یادگیری تقویتی بر اساس شبکه عصبی اضافه شد‪ .‬مشخص شد که در مقایسه‬
‫با الگوریتم ‪ ،DDQN‬سریعتر اجرا می شود و مسیر بهینه ای دارد‪ .‬با توجه به نتایج فوق‪ ،‬الگوریتم‬
‫همجوشی با استفاده از یک شبکه عصبی و یادگیری تقویتی عملکرد بهتری در ازمایش مسیر دارد‪.‬‬

‫ارزیابی عملکرد الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل‬

‫شکل ‪A 8‬زمان برنامه ریزی مسیر الگوریتم های مختلف تحت طول مسیر های مختلف را نشان‬
‫می دهد‪ .‬نتایج نشان می دهد که با افزایش طول مسیر‪ ،‬زمان برنامه ریزی مسیر نیز افزایش می‬
‫یابد‪ ،‬جایی که زمان مورد نیاز متناسب با طول مسیر است‪ .‬تا انجا که به الگوریتم های مختلف‬
‫مربوط می شود‪ ،‬الگوریتم سنتی ‪ Q-Learning‬طوالنی ترین زمان را با میانگین ‪ s 78.35‬می‬
‫گیرد ‪. PDQN‬کوتاه ترین زمان را می گیرد زیرا الگوریتم یک میدان نیرو را معرفی می کند و‬
‫باعث می شود الگوریتم به طور مداوم بهبود یابد‪ .‬الگوریتم ‪ DDPG‬بر اساس شبکه های عصبی و‬
‫‪HRL‬موقعیت دوم را نشان می دهد که به طور متوسط ‪ 40.7‬ثانیه طول می کشد و ‪٪48.05‬‬
‫باالتر از الگوریتم سنتی‪ ٪31.01 ،‬باالتر از الگوریتم ‪ DQN‬شبکه عصبی و ‪ ٪40.1‬باالتر از‬
‫الگوریتم تقویت است‪.‬‬

‫شکل ‪ .8‬ارزیابی عملکرد زمان و مراحل مختلف الگوریتم های برنامه ریزی مسیر ربات تلفن همراه‬
‫(الگوریتم ‪ QL‬نشان دهنده الگوریتم )‪ Q-Learning‬است‪.‬‬
‫شکل ‪ B8‬تعداد مراحل مسیر الگوریتم های مختلف را در زمان های مختلف تکرار نشان می دهد‪.‬‬
‫با افزایش تعداد تکرارها‪ ،‬الگوریتم های ‪ Q-Learning‬و ‪ A3C‬تاثیر نمی گذارد زیرا این دو‬
‫الگوریتم قابلیت یادگیری عمیق ندارند‪ .‬با افزایش تعداد تکرارها‪ ،‬از نظر الگوریتم های دیگر‪ ،‬تعداد‬
‫مراحل مسیر همچنان در همان مسیر کاهش می یابد‪ .‬از الگوریتم های مختلف‪ ،‬الگوریتم یادگیری‬
‫تقویتی به طور قابل توجهی بهتر از الگوریتم سنتی ‪ Q-Learning‬با بهبود ‪ ٪20.56‬است‪ .‬از‬
‫الگوریتم های مختلف شبکه عصبی‪ ،‬الگوریتم ‪ DDPG‬دارای بهترین عملکرد است که دارای یک‬
‫گام مسیر متوسط ‪ 63‬مرحله است‪ .‬در مقایسه با الگوریتم ‪ 20.25٪ ،DQN‬افزایش یافته است‪.‬‬
‫در مقایسه با الگوریتم ‪ ،DDQN‬تعداد مراحل مسیر ‪ ٪8.69‬افزایش می یابد‪ .‬با توجه به نتایج‬
‫فوق‪ ،‬الگوریتم ‪ PDQN‬در شرایط مسیر مشابه کارامدتر است‪ ،‬همانطور که یادگیری ادامه می یابد‪،‬‬
‫الگوریتم همجوشی از نظر مراحل مسیر بهتر عمل می کند‪.‬‬

‫شکل ‪ A9‬زمان همگرایی الگوریتم های مختلف را تحت مراحل مختلف مسیر نشان می دهد‪ .‬نتایج‬
‫نشان می دهد که با افزایش گام های مسیر‪ ،‬زمان همگرایی هر الگوریتم به طور مداوم افزایش می‬
‫یابد‪ .‬در مقایسه با الگوریتم های ‪ Q-Learning‬و ‪ ،A3C‬پس از اضافه کردن یادگیری تقویتی‪،‬‬
‫زمان همگرایی برنامه ریزی مسیر ربات ‪ ٪13.54‬افزایش می یابد‪ .‬در مقایسه با الگوریتم های ‪Q-‬‬
‫‪ Learning‬و ‪ ،DQN‬پس از اضافه کردن الگوریتم شبکه عصبی‪ ،‬زمان همگرایی برنامه ریزی‬
‫مسیر ربات ‪ ٪33.85‬افزایش می یابد که واضح ترین پیشرفت است‪ .‬با مقایسه شبکه های عصبی‬
‫مختلف‪ ،‬مشخص شد که زمان همگرایی الگوریتم ‪ DDQN‬با افزایش ‪ Q-value‬به شدت بهبود‬
‫یافته است و زمان همگرایی برنامه ریزی مسیر در مقایسه با الگوریتم قبلی ‪Q-Learning‬‬
‫‪ 94.44٪‬بهبود یافته است‪ .‬برای الگوریتم ‪ DDPG‬مبتنی بر شبکه عصبی و ‪ ،HRL‬زمان همگرایی‬
‫الگوریتم تحت عدد ناهمزمان به طور متوسط ‪ s 1.34‬است که ‪ ٪55.52‬سریعتر از الگوریتم‬
‫‪ DDQN‬بهینه‬
‫است‪.‬‬

‫شکل ‪ .9‬ارزیابی زمان همگرایی و‬


‫عملکرد پاداش تجمعی الگوریتم‬
‫های مختلف برنامه ریزی مسیر‬
‫‪ QL‬الگوریتم( ربات متحرک‬
‫‪ Q-‬نشان دهنده الگوریتم‬

You might also like