ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند

‫ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند‪ .
‬برای حل این مشکالت‪ ،‬که‬

‫شامل یادگیری مستقل در برنامه ریزی مسیر‪ ،‬همگرایی آهسته برنامه ریزی مسیر و مسیرهای‬
‫برنامه ریزی شده است که صاف نیستند‪ ،‬می توان از شبکه های عصبی استفاده کرد تا ربات بتواند‬
‫محیط را درک کند و استخراج ویژگی ها را انجام دهد‪ ،‬که آنها را قادر می سازد تا تناسب محیط‬
‫زیست را برای عملکرد عمل حالت داشته باشند ‪ .‬با نقشه برداری از وضعیت فعلی این اقدامات از‬
‫طریق یادگیری تقویت سلسله مراتبی)‪ ، (HRL‬نیازهای ربات های متحرک برآورده می شود‪ .‬امکان‬
‫ساخت یک مدل برنامه ریزی مسیر برای ربات های متحرک بر اساس شبکه های عصبی و ‪HRL‬‬
‫وجود دارد‪ .‬در این مقاله الگوریتم پیشنهادی با الگوریتم های مختلف در برنامه ریزی مسیر مقایسه‬
‫می شود‪ .‬آن را تحت ارزیابی عملکرد برای به دست آوردن یک سیستم الگوریتم یادگیری بهینه‪.‬‬
‫سیستم الگوریتم بهینه در محیط ها و سناریوهای مختلف برای به دست اوردن شرایط یادگیری‬
‫بهینه مورد آزمایش قرار گرفت و در نتیجه اثربخشی الگوریتم پیشنهادی تایید شد‪ .‬گرادیان‬
‫سیاست قطعی عمیق (‪ ،)DDPG‬یک الگوریتم برنامه ریزی مسیر برای ربات های تلفن همراه بر‬
‫اساس شبکه های عصبی و یادگیری تقویت سلسله مراتبی‪ ،‬در همه جنبه ها بهتر از سایر الگوریتم‬
‫ها عمل می کند‪ .‬به طور خاص‪ ،‬در مقایسه با )‪،Double Deep Q-Learning (DDQN‬‬
‫‪ DDPG‬دارای زمان برنامه ریزی مسیر کوتاه تر و تعداد مراحل مسیر کاهش یافته است‪ .‬هنگام‬
‫معرفی یک مقدار نفوذ‪ ،‬این الگوریتم زمان همگرایی را در مقایسه با الگوریتم یادگیری ‪Q 91٪‬‬
‫کوتاه می کند و صافی مسیر برنامه ریزی شده را ‪ ٪79‬بهبود می بخشد‪ .‬این الگوریتم اثر تعمیم‬
‫خوبی در سناریوهای مختلف دارد‪ .‬این نتایج برای تحقیق در مورد هدایت‪ ،‬موقعیت دقیق و برنامه‬
‫ریزی مسیر ربات های متحرک اهمیت دارد‪.‬‬
‫مقدمه‬
‫ناوبری مستقل ربات موبایل را می توان به سه زیر سیستم تقسیم کرد‪ :‬ادراک اطالعات‪ ،‬تصمیم‬
‫گیری رفتار و کنترل دستکاری‪ .‬برنامه ریزی مسیر اساس ناوبری و کنترل ربات متحرک است‬
‫(‪2017 ،Ghosh et al.‬؛ ‪ Orozco-Rosas‬و همکاران‪ .)2019 ،‬هدف از برنامه ریزی مسیر‬
‫ربات تلفن همراه پیدا کردن یک مسیر از موقعیت فعلی به موقعیت هدف است‪ .‬مسیر باید تا حد‬
‫ممکن کوتاه باشد‪ ،‬صافی مسیر باید پویایی ربات متحرک را برآورده کند و ایمنی مسیر باید بدون‬
‫برخورد باشد (هان و سئو‪ .)2017 ،‬بسته به اینکه چقدر اطالعات در مورد محیط زیست در فرآیند‬
‫برنامه ریزی مسیر شناخته شده است‪ ،‬برنامه ریزی مسیر را می توان به برنامه ریزی مسیر جهانی‬
‫و برنامه ریزی مسیر محلی تقسیم کرد (لی و چو‪ .)2018 ،‬روش های زیادی برای برنامه ریزی‬
‫مسیر وجود دارد‪ .‬با توجه به الگوریتم ها و استراتژی های خاص‪ ،‬الگوریتم های برنامه ریزی مسیر‬
‫را می توان تقریبا به چهار نوع تقسیم کرد‪ :‬تطبیق الگو‪ ،‬میدان پتانسیل مصنوعی‪ ،‬ساخت نقشه و‬
‫هوش مصنوعی (‪ .)2018 ،Zhao et al.‬هر نوع الگوریتم برنامه ریزی مسیر دارای یک سناریو و‬
‫محدودیت های کاربردی بهینه است‪ .‬برنامه ریزی مسیر فعلی ربات های متحرک به شدت به‬
‫محیط اطراف متکی است‪ .‬عالوه بر محدودیت های برنامه ریزی مسیر سنتی‪ ،‬ربات ها نمی توانند‬
‫یادگیری و قضاوت خود را در محیط های پیچیده تکمیل کنند‪ ،‬تنگنا در توسعه تحقیقات در این‬
‫زمینه (‪ .)2017 ،Bakdi et al.‬بنابراین بسیار مهم است که یک روش برنامه ریزی مسیر با اتکای‬
‫کم به محیط زیست ایجاد شود که می تواند به سرعت با محیط اطراف سازگار شود‪ .‬شبکه‬
‫یادگیری عمیق )‪ (DQN‬راهی برای مدل سازی محیط و محاسبه تابع انرژی برخورد است که علت‬
‫اصلی از دست دادن عملکرد است (‪ .)2019 ،Ohnishi et al.‬برای تحقق فرآیند برنامه ریزی‬
‫مسیر‪ ،‬شبکه عصبی آموزش دیده است تا عملکرد از دست دادن را از طریق روش نزول گرادیان به‬
‫حداقل برساند‪ .‬برای فعال کردن توانایی تعمیم بهتر در شبکه عصبی‪ ،‬داده های مختلف نمونه برای‬
‫یادگیری و آموزش مورد نیاز است‪ ،‬با این حال‪ ،‬یک نمونه داده بیش از حد بزرگ زمان آموزش را‬
‫افزایش می دهد (شن و همکاران‪a2019 ،‬؛ سونگ و همکاران‪ .)2020 ،‬یادگیری تقویتی عمیق‬
‫(‪ ،)DRL‬به عنوان یک روش مهم یادگیری ماشین‪ ،‬توجه بیشتری را به خود جلب کرده است و‬
‫کاربردهای فزاینده ای از آن در برنامه ریزی مسیر ربات ‪ DRL‬وجود دارد ( ‪Arulkumaran et‬‬
‫‪ .)2017 ،al.‬عامل دانش را از طریق اکتشاف یک محیط به دست می اورد و با استفاده از فرایند‬
‫آزمون و خطا یاد می گیرد‪ .‬روش ‪ DRL‬دارای مزایای آشکار در برنامه ریزی مسیر است و نیاز به‬
‫اطالعات قبلی کمتری در مورد محیط زیست دارد (‪2017 ،Wulfmeier et al.‬؛ ژنگ و لیو‪،‬‬
‫‪ .)2020‬بر خالف روش یادگیری تحت نظارت‪ ،‬یادگیری تقویتی نیازی به داده های نمونه زیادی‬
‫برای آموزش مانند روش های شبکه عصبی ندارد و داده های نمونه را در طول فرایند آموزش به‬
‫دست می آورد‪ .‬در سال های اخیر‪ ،‬محققان بر استفاده از الگوریتم های جدید یا الگوریتم های‬
‫همجوشی برای بهبود عملکرد ربات های تلفن همراه متمرکز شده اند (‪.)2018 ،Yan and Xu‬‬
‫لی و همکارانش دریافتند که اضافه کردن الگوریتم ‪ Q-Learning‬به مسیر یادگیری تقویتی‪،‬‬
‫توانایی ربات ها را برای جلوگیری از موانع و برنامه ریزی محلی در محیط افزایش می دهد ( ‪Lei‬‬
‫‪2018 ،et al.‬؛ ‪ .)2019 ،Liu et al.‬وانگ و همکارانش دریافتند که در مقایسه با الگوریتم توزیع‬
‫شده )‪ ،DQN (DDQN‬شبکه دو عمق درخت (‪ )TDDQN‬دارای مزایای سرعت همگرایی سریع و‬
‫تلفات کم است (‪ .)2020 ،Wang P. et al.‬با استفاده از یک شبکه عصبی برای تقویت سیستم‬
‫برنامه ریزی مسیر یادگیری‪ .Wen et al ،‬پیشنهاد کرد که ربات متحرک می تواند بدون برخورد‬
‫با هر گونه موانع و سایر ربات های متحرک به موقعیت هدف هدایت شود و این روش با موفقیت به‬
‫پلت فرم ربات فیزیکی (‪ )2020 ،Wen et al.‬اعمال شد‪ Botteghi .‬و همکاران یک استراتژی‬
‫اموزش تابع پاداش را در الگوریتم فیوژن معرفی کردند که نه تنها از نظر سرعت همگرایی از تابع‬
‫پاداش استاندارد بهتر عمل کرد‪ ،‬بلکه تعداد برخوردها را ‪ ٪36.9‬از مراحل تکرار کاهش داد‬
‫(‪)b2019 ،Shen et al.‬؛ ‪ .)2020 ،Botteghi et al.‬بنابراین الگوریتم همجوشی دارای‬
‫مزایای اشکاری در برنامه ریزی مسیر و عملکرد الگوریتم است‪ .‬با این حال‪ ،‬عملکرد برنامه ریزی‬
‫مسیر الگوریتم های همجوشی فعلی برجسته نیست‪ .‬با توجه به کاستی های این نتایج تحقیق‪ ،‬ما‬
‫یک سیستم برنامه ریزی مسیر ربات تلفن همراه را بر اساس شبکه های عصبی و یادگیری تقویتی‬
‫سلسله مراتبی طراحی کردیم‪ .‬از طریق شبکه های عصبی‪ ،‬این سیستم محیط را درک می کند و‬
‫استخراج ویژگی ها را برای تحقق تناسب از محیط به تابع عمل حالت انجام می دهد (چن‪،‬‬
‫‪ .)2018‬نقشه برداری از وضعیت فعلی به عمل یادگیری تقویت سلسله مراتبی از طریق تابع‬
‫افزایش راضی است‪ ،‬در نتیجه تحقق تقاضا برای ربات های متحرک‪ .‬از لحاظ تئوری‪ ،‬ترکیب‬
‫ارگانیک این دو می تواند عملکرد ربات های متحرک را در برنامه ریزی مسیر بهبود بخشد‪.‬‬
‫بنابراین‪ ،‬در این مطالعه‪ ،‬الگوریتم در یک ربات تلفن همراه تعبیه شد و الگوریتم طراحی شده با‬
‫مقایسه ان با سایر الگوریتم های برنامه ریزی مسیر در محیط ها و سناریوهای مختلف تایید شد‪.‬‬
‫‪ Q-value‬اولیه الگوریتم پیشنهادی سرعت همگرایی را افزایش داد‪ ،‬تعداد حالت ها‪ ،‬و همچنین‬
‫جهت حرکت و طول گام را دوباره تعریف کرد‪ .‬عملکرد در زمان واقعی برنامه ریزی مسیر و صافی‬
‫ربات تلفن همراه به طور قابل توجهی بهبود یافته است و می تواند برای هدایت حرکت ربات و‬
‫بهبود تحرک الگوریتم استفاده شود (لیو و وانگ‪.)2019 ،‬‬
‫روش‬
‫مدل برنامه ریزی مسیر ربات موبایل‬
‫وظیفه برنامه ریزی مسیر که در این مطالعه مورد بررسی قرار گرفته است بر اساس یک ربات‬
‫متحرک دیفرانسیل دو چرخ است‪ .‬این ربات می تواند سرعت دو چرخ رانندگی خود را برای‬
‫دستیابی به حرکات مسیر دلخواه مانند حرکت خطی‪ ،‬چرخش و چرخش در دایره کنترل کند‪.‬‬
‫شکل ‪ 1‬ژست ربات را در فواصل زمانی مجاور نشان می دهد که بر اساس ان مدل سینماتیک‬
‫ایجاد می شود‪.‬‬
‫تنظیم شده است‪:‬‬ ‫ژست سیستم مختصات جهانی ربات متحرک در زمان ‪ t‬به‬
‫باشد‬ ‫اگر مختصات جهانی ربات متحرک در زمان ‪ t+ Δt‬و‬
‫فاصله بین چرخ های رانندگی چپ و راست ‪ L‬است‪ ،‬سرعت چرخ های رانندگی چپ و راست ‪ vӀ‬و‬
‫سرعت خطی ربات و سرعت زاویه ای به ترتیب ‪ v‬و ‪ ،ω‬سرعت ‪ v‬ربات متحرک در حالت حرکت‬
‫ایده ال است‪:‬‬
‫سرعت زاویه ای این ربات به این قرار است‪:‬‬
‫شعاع انحنای لحظه ای ‪ R‬به این صورت است‪:‬‬
‫همانطور که در شکل ‪ θ1 =θ2=θ ،1‬نشان داده شده است‪ ،‬پس از ‪ ،Δt‬زاویه عنوان ربات به شرح‬
‫زیر تغییر می کند‪:‬‬
‫می تواند‬ ‫به سمت‬ ‫حرکت از موقعیت‬

‫به عنوان یک قوس دایره ای با شعاع ‪ R‬در نظر گرفته شود‪ .‬اگر قوس برای تقریبی مسیر واقعی‬
‫ربات استفاده شود‪ ،‬رابطه هندسی باید‪:‬‬
‫با ترکیب معادالت فوق‪ ،‬معادله حرکت ربات متحرک دیفرانسیل را می توان به صورت زیر به دست‬
‫اورد‪:‬‬
‫‪ANN‬‬
‫‪ ANN‬یک مدل ریاضی یا محاسباتی است که ساختار و عملکرد شبکه های عصبی بیولوژیکی را‬
‫شبیه سازی می کند که برای تخمین یا تقریبی توابع استفاده می شود‪ .‬با تعمیق مداوم اثار‬
‫تحقیقاتی در ‪ ،ANNs‬پیشرفت های بزرگی در زمینه های تشخیص گفتار‪ ،‬تشخیص الگو‪ ،‬کنترل‬
‫خودکار و براورد پیش بینی شده است‪ ANN .‬با موفقیت بسیاری از مشکالتی را حل کرده است‬
‫که حل انها برای رایانه ها دشوار است و عملکرد خوبی را نشان می دهد‪.‬‬
‫در کاربرد عملی ‪ ،ANN‬اکثر مدل های شبکه عصبی از یک شبکه عصبی پس انتشار (‪ )BPNN‬و‬
‫تحوالت ان استفاده می کنند که دارای توانایی نقشه برداری غیر خطی خوب‪ ،‬توانایی خود‬
‫یادگیری و تحمل خطا هستند‪ .‬این عمدتا از جنبه های بسیاری مانند تشخیص الگو‪ ،‬تقریب‬
‫عملکرد‪ ،‬فشرده سازی داده ها‪ ،‬براورد پیش بینی و طبقه بندی استفاده می کند‪ .‬بنابراین‪ ،‬نماینده‬
‫ترین ‪ BPNN‬به عنوان پایه مدل سازی برای تجزیه و تحلیل مسیر ربات انتخاب می شود‪ANN .‬‬
‫معموال از چندین الیه ‪ BPNN‬و چندین نورون تشکیل شده است که عمدتا به یک الیه ورودی‪،‬‬
‫یک الیه پنهان و یک الیه خروجی تقسیم می شوند‪ ،‬جایی که بردار ورودی باید‪:‬‬
‫بردار خروجی باید ‪:‬‬
‫ورودی نورون الیه پنهان باید ‪:‬‬
‫که در ان ‪ : SL‬تعداد نورون ها در الیه ‪ 1‬است؛ با فرض اینکه ‪𝑤 𝑙 ij‬‬
‫وزن اتصال بین نورون ‪ j-th‬در الیه ‪ 𝑏 𝑙 i ،1-1‬است استانه نورون ‪ i-th‬در الیه ‪ 1‬و ‪net(l)i‬‬
‫است ورودی نورون ‪ i-th‬در الیه ‪ 1‬است‪ ،‬سپس معادله زیر به دست می رود‪:‬‬
‫در اینجا‪ ،‬توابع الیه ورودی به الیه خروجی از تابع ‪ TANSIG‬متناظر ‪ S-type‬استفاده می کنند‪،‬‬
‫الیه خروجی از تابع خطی ‪ PURELIN‬استفاده می کند‪ ،‬قوانین یادگیری از تابع ‪TRINGDX‬‬
‫استفاده می کنند و ارزیابی عملکرد از تابع ‪ MES‬استفاده می کند‪ ،‬جایی که شماره مدل به‬
‫‪ 1000‬بار تنظیم شده و دقت به ‪ 0.0001‬تنظیم شده است‪ .‬بقیه پارامترهای پیش فرض سیستم‬
‫هستند و ساختار خاص در شکل ‪ 2‬نشان داده شده است‪.‬‬
‫اموزش تقویتی‬
‫یادگیری تقویتی یک روش یادگیری ماشین است که با تعامل با محیط یاد می گیرد‪ .‬یک عامل از‬
‫روش های یادگیری تقویتی برای یادگیری استفاده می کند‪ ،‬یعنی به دست اوردن دانش از دنباله‬
‫ای از اقدامات به دست امده از اکتشاف‪ .‬داده های نمونه ان وجود ندارد‪ ،‬به این معنی که با فرایند‬
‫یادگیری تحت نظارت متفاوت است‪ .‬پس از اینکه یک عامل یک عمل را اجرا می کند‪ ،‬بازخورد از‬
‫محیط دریافت می کند‪ .‬این بازخورد ارزیابی عمل انجام شده توسط محیط زیست است و یک‬
‫فرایند "ازمون و خطا" است‪ .‬ارزیابی اقدامات انجام شده توسط محیط‪ ،‬ارزش پاداش فوری دریافت‬
‫شده توسط نماینده است‪ .‬پاداش فوری یک سیگنال پیشرفته است که نشان دهنده تاثیر اجرای‬
‫این عمل بر نتیجه است‪ .‬هر چه ارزش بزرگتر باشد‪ ،‬اثر بهتر است‪ ،‬در غیر این صورت تاثیر ضعیفی‬
‫خواهد داشت‪ .‬مدل یادگیری تقویتی در شکل ‪ 3‬نشان داده شده است‪ .‬فرایند یادگیری روش‬
‫یادگیری تقویتی یک فرایند اکتشافی است‪ .‬این به طور مداوم از طریق واحدهای تصادفی تالش‬
‫می کند‪ ،‬برای عمل بهینه برای به دست اوردن سیگنال پیشرفته محیط جستجو می کند و‬
‫احتمال انتخاب عمل بهینه توسط به روز رسانی تکراری را افزایش می دهد‪ ،‬در نتیجه مجموعه ای‬
‫از راه حل های بهینه (مجموعه ای از توالی های عمل با باالترین مقدار پاداش) را پیدا می کند‪.‬‬
‫سیگنال تقویتی در یادگیری تقویتی از پاداش فوری بازخورد زیست محیطی می اید‪ .‬این مقدار‬
‫پاداش نشان دهنده کیفیت عمل انجام شده است به جای اینکه به ماشین بگوید عمل صحیح‬
‫چیست‪ .‬فرایند تعامل ماشین با محیط را می توان به عنوان پردازش تصمیم مارکوف )‪ (MDP‬در‬
‫نظر گرفت‪ .‬تا زمانی که مجموعه متغیر تصادفی‪X3.... Xt} ،X2 ، {X1‬معادله زیر را راضی می‬
‫کند‪ ،‬مجموعه دارای ویژگی های مارکوف است ‪:‬‬
‫هنگامی که حالت ‪ x‬تعیین می شود‪ ،‬اقدامات قبل از دولت با اقدامات پس از دولت مرتبط نیست و‬
‫مستقل از یکدیگر است‪ .‬در میان انها‪ ،‬مجموعه حالت‪ ، S‬مجموعه عمل‪ ، A‬تابع پاداش‪ ، R‬تابع‬
‫انتقال حالت ‪ T‬و تابع عینی ‪ MDP‬را تشکیل می دهند‪ .‬روند دولت از انتقال به شرح زیر است ‪:‬‬
‫فرایند تصمیم مارکوف عمدتا تحقق مجموعه ای از توالی های عمل است ‪( α = π‬ها) به طوری که‬
‫رسیدن به حداکثر ارزش از طریق تکرار ارزش ها‪ ،‬مسئله‬ ‫پاداش تخفیف تجمعی‬
‫می تواند تحقق یابد‪ .‬تابع مقدار بهینه به صورت زیر تعریف‬ ‫بهینه سازی ‪MDP‬‬
‫می شود ‪:‬‬
‫سپس استراتژی بهینه به شرح زیر محاسبه می شود ‪:‬‬

‫سیستم یادگیری تقویتی عمدتا از سه بخش تشکیل شده است‪ :‬عملکرد پاداش‪ ،‬عملکرد ارزش و‬
‫استراتژی انتخاب عمل‪ .‬در میان انها‪ ،‬عملکرد تقویتی به عملکرد پاداش مداوم تقسیم می شود‪ .‬با‬
‫ایجاد یک مدل ریاضی بین حالت و بازخورد زیست محیطی درک شده توسط عامل در هر لحظه‪،‬‬
‫عامل می تواند ارزیابی محیط زیست در هر حالت را به دست اورد‪ ،‬اطالعات راهنمایی بیشتری را‬
‫در طول فرایند اموزش عامل ارائه دهد و عامل می تواند استراتژی بهینه را سریعتر پیدا کند‪.‬‬
‫محاسبه به شرح زیر است ‪:‬‬
‫توابع پاداش گسسته نیاز به اطالعات پیشینی کمتری دارند و ساخت انها ساده است که کاربردهای‬
‫بهتری در اکتشاف و یادگیری در محیط های ناشناخته دارند‪ .‬محاسبه به شرح زیر است‪:‬‬
‫تابع پاداش فقط پاداش عمل در حال حاضر اجرا شده را می دهد‪ ،‬اما این تضمین نمی کند که هر‬
‫عمل می تواند پاداش دریافت کند‪ .‬همانطور که اموزش پیشرفت می کند‪ ،‬تابع ارزش به طور مداوم‬
‫بهینه سازی و همگرا می شود و عمل توسط استراتژی در یک حالت انتخاب می شود‪ ،‬که تضمین‬
‫می کند که هر عمل نه تنها بزرگترین پاداش بلکه بزرگترین پاداش تخفیف تجمعی را نیز دریافت‬
‫می کند که تابع پاداش تجمعی محدود بدون تخفیف است‪:‬‬
‫جای که ‪ rt‬پاداشی است که بالفاصله توسط ماشین در زمان ‪ t‬به دست می اورد و پاداش تجمعی‬
‫انباشت پاداش های فوری به دست امده از حالت شروع به حالت هدف است‪ .‬تابع پاداش تخفیف‬
‫نامحدود است‪:‬‬
‫جایی که ’‪ y‬عامل تخفیف است و محدوده ارزش ‪ ≤ γ ≤ 1 0‬است که نشان دهنده محدودیت‬
‫یادگیری تقویتی است‪ .‬عملکرد ارزش توجه بیشتری به پاداش های اینده دارد‪ .‬عملکرد پاداش‬
‫متوسط این است‪:‬‬
‫پس از یادگیری‪ ،‬استراتژی بهینه می تواند از تابع ارزش به دست امده از اموزش برای انتخاب‬
‫استراتژی عمل استفاده کند‪ .‬معادله به شرح زیر است‪:‬‬
‫استراتژی انتخاب عمل ‪ Softmax‬برای تجزیه و تحلیل احتمال عمل استفاده می شود که به طور‬
‫کلی توسط تابع توزیع بولتزمن توصیف می شود‪ .‬مدل ریاضی به شرح زیر است‪ ،‬جایی که ‪T‬‬
‫ضریب کنترل دما است‪.‬‬
‫الگوریتم های مختلف تشخیص برنامه ریزی مسیر‬

‫در اینجا الگوریتم های مختلفی برای تعیین مزایای الگوریتم پیشنهادی مقایسه می شوند‪ .‬الگوریتم‬
‫های شناخت زیادی برای برنامه ریزی مسیر ربات های متحرک وجود دارد‪ .‬این الگوریتم های‬
‫برنامه ریزی مسیر همه بر اساس اصل موقعیت نقطه ویژگی است که در هر جهت تصاویر عمدتا از‬
‫طریق یک پنجره گاوسی تغییر می کند‪ .‬از طریق این حرکت‪ ،‬ماتریس همبستگی پنجره های‬
‫مختلف محاسبه می شود و داده های تصویری محیط به دست می اید‪.‬‬
‫(‪ )1‬الگوریتم ‪ Q-Learning‬یک الگوریتم یادگیری با ارزش جدول است زیرا جدول مقدار ‪Q‬‬
‫عملکرد حالت در طول تعامل بین ماشین و محیط ایجاد می شود‪ .‬پاداش در محیط بر ارزش ‪Q‬‬
‫مربوط به اقدام دولت تاثیر می گذارد‪ Q-value .‬رفتار صحیح به تدریج تحت پاداش مثبت‬
‫افزایش می یابد و مقدار ‪ Q‬مربوط به رفتار اشتباه نیز تحت پاداش منفی کاهش می یابد‪ .‬عمل‬
‫بهینه در استراتژی انتخاب عمل انتخاب می شود تا عامل استراتژی رفتار مطلوب را به دست اورد‬
‫(‪)2016 ،Wei et al.‬؛ ‪ .)2017 ،Zhu et al.‬روش به روز رسانی ‪ Q-value‬در شکل ‪ 4‬به شرح‬
‫زیر است‪:‬‬
‫شکل ‪ .4‬نمودار شماتیک روش برنامه ریزی مسیر‪Q-‬‬

‫‪Learning.‬‬
‫(‪ )2‬الگوریتم ‪ DQN‬یک فرایند استفاده از شبکه عصبی برای تقریبی تابع ارزش است‪ .‬همانطور که‬
‫در شکل ‪ 5‬نشان داده شده است‪ ،‬تابع مقدار بهینه ‪ θ) ،α ،Q (s‬با تنظیم وزن شبکه عصبی‬
‫تقریبی است‪ .‬تابع مقدار به روز رسانی پارامترها را تغییر می دهد‪ .‬پس از اتمام اموزش شبکه‬
‫عصبی‪ ،‬پارامترها تعیین می شوند و مقدار تابع مربوطه دیگر تغییر نخواهد کرد‪ .‬سپس فرایند‬
‫اموزش همگرا می شود (لیو و هاجینز‪2017 ،‬؛ ‪ .)2017 ،Zhu et al.‬معادله به روز رسانی مکان‬
‫این است‪:‬‬
‫شکل ‪ .5‬نمودار شماتیک ساختار تابع تقریب شبکه‬

‫‪.‬عصبی‬
‫)‪(3‬پتانسیل )‪ DQN (PDQN‬الگوریتم بهبود الگوریتم ‪ DQN‬است‪ .‬هدف اصلی ان سرعت‬

‫بخشیدن به سرعت در حال اجرا الگوریتم است‪ .‬بر این اساس‪ ،‬روش میدان‬
‫پتانسیل مصنوعی اضافه می شود (گوپتا و همکاران‪ .)2019 ،‬میدان گرانشی به‬
‫شرح زیر محاسبه می شود‪:‬‬
‫جایی که ‪ k‬ضریب سود است‪X ،‬موقعیت فعلی ربات متحرک است‪ Xg ،‬موقعیت هدف است‪j ،‬‬
‫پاداش تنظیم برنامه ریزی است و رابطه بین پاداش و گرانش به شرح زیر است‪:‬‬
‫الگوریتم بازیگر منتقد )‪ (A3C‬روشی برای یادگیری تقویتی است‪ .‬این یک مکانیسم ارزیابی برای‬
‫حل مشکل واریانس باال معرفی می کند‪ .‬این از یک شبکه عصبی برای پیش بینی عمل انتخاب‬
‫شده استفاده می کند و به طور مستقیم نتیجه پیش بینی را به عقب می برد تا احتمال انتخاب‬
‫عمل بعدی را افزایش دهد‪ .‬اگر تابع پاداش نشان دهد که عمل انتخاب شده بهینه نیست‪ ،‬احتمال‬
‫انتخاب عمل دفعه بعد کاهش می یابد‪). 2018 ، (Haarnoja et al.‬معادله گرادیان استراتژی به‬
‫شرح زیر است‪:‬‬
‫)‪(5‬الگوریتم شیب سیاست قطعی عمیق )‪ (DDPG‬یک الگوریتم با پیشرفت های زیادی در‬
‫‪DQN‬است که در ان الگوریتم ‪ A3C‬اضافه می شود‪ .‬این یک الگوریتم همجوشی شبکه عصبی و‬
‫یادگیری تقویتی است‪ .‬جزئیات بهبود خاص در شکل ‪ 6‬نشان داده شده است‪.‬‬
‫شکل ‪ .6‬ساختار الگوریتم شبکه‬

‫‪DDPG‬‬
‫)‪(6‬الگوریتم دوگانه )‪ DQN (DDQN‬حداکثر عمل در شبکه هدف را از طریق شبکه تخمین می‬
‫زند و از این عمل تخمینی برای انتخاب ‪( Q‬ها) در شبکه هدف استفاده می کند (ژانگ و همکاران‪،‬‬
‫‪)2018‬؛‪). 2019 ، Han et al.‬اهداف ‪ TD‬باید‪:‬‬
‫ساخت و پایش محیط شبیه سازی‬
‫محیط شبیه سازی عمدتا از چارچوب چند رسانه ای ‪ pyglet‬تحت پایتون برای طراحی برنامه‬
‫های تعاملی به عنوان پلت فرم شبیه سازی استفاده می کند‪ .‬یک محیط استاتیک ‪200 * 200‬‬
‫پیکسل در ازمایش ساخته شده است‪ .‬در محیط‪ ،‬ربات متحرک دیگر یک ذره نیست‪ ،‬بلکه توسط‬
‫یک دایره ابی با اندازه ‪ 10 * 10‬نشان داده شده است‪ .‬دایره سبز ‪ S‬نشان دهنده مختصات شروع‬
‫است‪ .‬مختصات پیکسل موقعیت شروع (‪ )5 ،5‬است‪ .‬دایره بنفش نشان دهنده موقعیت هدف است‬
‫و پنج منطقه سیاه با اندازه های مختلف در شکل موقعیت موانع است‪ .‬منطقه سفید نشان می دهد‬
‫که هیچ مانعی در نقشه وجود ندارد‪ ،‬که در ان ربات می تواند ازادانه حرکت کند‪ .‬از انجا که ربات‬
‫در دنیای واقعی اندازه دارد‪ ،‬زمانی که مرز ربات متحرک در تماس با مرز منطقه مانع است‪ ،‬در نظر‬
‫گرفته می شود که برخورد کرده است و پس از برخورد‪ ،‬شکست خورده و به موقعیت شروع‬
‫بازگردانده می شود‪ .‬وضعیت ازمایش توسط حالت شطرنجی نشان داده می شود‪ .‬وضعیت ازمایش‬
‫توسط حالت شطرنجی نشان داده می شود‪.‬‬
‫تشخیص عمدتا از تابع )( ‪ summary.value.add‬در ‪ TensorFlow‬برای اضافه کردن‬

‫متغیرها به گزارش نظارت استفاده می کند‪ .‬تغییرات در داده های فرایند اموزش را می توان از‬
‫طریق ‪ TensorFlow‬مشاهده کرد‪ .‬پس از یادگیری‪ ،‬پارامترهای شبکه عصبی با استفاده از تابع‬
‫)( ‪tf.train.Saver‬ذخیره می شوند و شبکه عصبی دوباره بارگذاری می شود و دوباره اجرا می‬
‫شود تا اثر پس از اتمام یادگیری را نشان دهد‪ .‬نتایج تجربی نشان می دهد که ربات متحرک می‬
‫تواند از موانع پویا در زمان جلوگیری کند و پس از اجتناب از موانع پویا‪ ،‬مسیر بهینه ای برای‬
‫رسیدن به موقعیت هدف پیدا کند‪ .‬در ازمایش‪ ،‬تابع ارزش شبکه کپی‪ ،‬میانگین تعداد مراحل مورد‬
‫استفاده برای رسیدن به موقعیت هدف و میانگین پاداش تجمعی شبکه کپی ذخیره می شود‪ .‬در‬
‫پایان فرایند یادگیری و اموزش‪ ،‬فرایند تغییر سه داده را می توان از طریق ‪TensorBoard‬‬
‫مشاهده کرد‪.‬‬
‫نتایج و بحث ها‬
‫نتایج تجربی الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل‬
‫شکل ‪ 7‬نتایج تجربی برنامه ریزی مسیر ربات متحرک تحت الگوریتم های مختلف را نشان می‬
‫دهد‪ .‬همانطور که در شکل ‪ 7‬نشان داده شده است‪ ،‬تحت شرایط شروع و پایان مشابه‪ ،‬تمام‬
‫الگوریتم ها می توانند به طور موثر از موانع جلوگیری کنند‪ .‬با مقایسه ارقام ‪ ،B ،A7‬مشخص شد‬
‫که در الگوریتم های سنتی ‪ Q-Learning‬و ‪ ،A3C‬الگوریتم یادگیری تقویتی به طور موثر تعداد‬
‫مراحل مسیر را کاهش می دهد‪.‬‬
‫شکل ‪ .7‬نتایج تجربی الگوریتم های مختلف برنامه ریزی‬

‫مسیر ربات های متحرک‬
‫با مقایسه ارقام ‪ ،C ،A7‬مشخص شد که معرفی یک الگوریتم شبکه عصبی بر اساس الگوریتم‬
‫سنتی ‪ Q-Learning‬می تواند تعداد مسیرها را تا حد زیادی کاهش دهد و به همان اثر الگوریتم‬
‫یادگیری تقویتی دست یابد‪ .‬با مقایسه ارقام ‪ ،D،C7‬مشخص شد که معرفی میدان نیرو بر اساس‬
‫شبکه عصبی سرعت اجرای الگوریتم را تا حد زیادی تسریع کرده و باعث کاهش قابل توجهی در‬
‫تعداد مراحل شده است‪ .‬اگرچه الگوریتم می تواند به طور موثر از موانع جلوگیری کند‪ ،‬اما‬
‫مسیرهای بی فایده زیادی را در پیش گرفته است‪ .‬بنابراین‪ ،‬الگوریتم ‪ DDQN‬انباشت مقدار ‪Q‬‬
‫اضافه شد‪ .‬همانطور که در شکل ‪ E7‬نشان داده شده است‪ ،‬الگوریتم می تواند به طور موثر از شبکه‬
‫عصبی برای یادگیری و دستیابی به حداقل تعداد مراحل استفاده کند‪.‬‬
‫در مقایسه با الگوریتم ‪ ،DQN‬سرعت اجرای ‪ DDQN‬بهبود یافته و در مقایسه با الگوریتم‬
‫‪ DDQN ،PDQN‬می تواند مسیر بهینه را پیدا کند‪ .‬همانطور که در شکل ‪ F7‬نشان داده شده‬
‫است‪ ،‬یک الگوریتم یادگیری تقویتی بر اساس شبکه عصبی اضافه شد‪ .‬مشخص شد که در مقایسه‬
‫با الگوریتم ‪ ،DDQN‬سریعتر اجرا می شود و مسیر بهینه ای دارد‪ .‬با توجه به نتایج فوق‪ ،‬الگوریتم‬
‫همجوشی با استفاده از یک شبکه عصبی و یادگیری تقویتی عملکرد بهتری در ازمایش مسیر دارد‪.‬‬
‫ارزیابی عملکرد الگوریتم های مختلف برنامه ریزی مسیر ربات موبایل‬
‫شکل ‪A 8‬زمان برنامه ریزی مسیر الگوریتم های مختلف تحت طول مسیر های مختلف را نشان‬
‫می دهد‪ .‬نتایج نشان می دهد که با افزایش طول مسیر‪ ،‬زمان برنامه ریزی مسیر نیز افزایش می‬
‫یابد‪ ،‬جایی که زمان مورد نیاز متناسب با طول مسیر است‪ .‬تا انجا که به الگوریتم های مختلف‬
‫مربوط می شود‪ ،‬الگوریتم سنتی ‪ Q-Learning‬طوالنی ترین زمان را با میانگین ‪ s 78.35‬می‬
‫گیرد ‪. PDQN‬کوتاه ترین زمان را می گیرد زیرا الگوریتم یک میدان نیرو را معرفی می کند و‬
‫باعث می شود الگوریتم به طور مداوم بهبود یابد‪ .‬الگوریتم ‪ DDPG‬بر اساس شبکه های عصبی و‬
‫‪HRL‬موقعیت دوم را نشان می دهد که به طور متوسط ‪ 40.7‬ثانیه طول می کشد و ‪٪48.05‬‬
‫باالتر از الگوریتم سنتی‪ ٪31.01 ،‬باالتر از الگوریتم ‪ DQN‬شبکه عصبی و ‪ ٪40.1‬باالتر از‬
‫الگوریتم تقویت است‪.‬‬
‫شکل ‪ .8‬ارزیابی عملکرد زمان و مراحل مختلف الگوریتم های برنامه ریزی مسیر ربات تلفن همراه‬
‫(الگوریتم ‪ QL‬نشان دهنده الگوریتم )‪ Q-Learning‬است‪.‬‬
‫شکل ‪ B8‬تعداد مراحل مسیر الگوریتم های مختلف را در زمان های مختلف تکرار نشان می دهد‪.‬‬
‫با افزایش تعداد تکرارها‪ ،‬الگوریتم های ‪ Q-Learning‬و ‪ A3C‬تاثیر نمی گذارد زیرا این دو‬
‫الگوریتم قابلیت یادگیری عمیق ندارند‪ .‬با افزایش تعداد تکرارها‪ ،‬از نظر الگوریتم های دیگر‪ ،‬تعداد‬
‫مراحل مسیر همچنان در همان مسیر کاهش می یابد‪ .‬از الگوریتم های مختلف‪ ،‬الگوریتم یادگیری‬
‫تقویتی به طور قابل توجهی بهتر از الگوریتم سنتی ‪ Q-Learning‬با بهبود ‪ ٪20.56‬است‪ .‬از‬
‫الگوریتم های مختلف شبکه عصبی‪ ،‬الگوریتم ‪ DDPG‬دارای بهترین عملکرد است که دارای یک‬
‫گام مسیر متوسط ‪ 63‬مرحله است‪ .‬در مقایسه با الگوریتم ‪ 20.25٪ ،DQN‬افزایش یافته است‪.‬‬
‫در مقایسه با الگوریتم ‪ ،DDQN‬تعداد مراحل مسیر ‪ ٪8.69‬افزایش می یابد‪ .‬با توجه به نتایج‬
‫فوق‪ ،‬الگوریتم ‪ PDQN‬در شرایط مسیر مشابه کارامدتر است‪ ،‬همانطور که یادگیری ادامه می یابد‪،‬‬
‫الگوریتم همجوشی از نظر مراحل مسیر بهتر عمل می کند‪.‬‬
‫شکل ‪ A9‬زمان همگرایی الگوریتم های مختلف را تحت مراحل مختلف مسیر نشان می دهد‪ .‬نتایج‬
‫نشان می دهد که با افزایش گام های مسیر‪ ،‬زمان همگرایی هر الگوریتم به طور مداوم افزایش می‬
‫یابد‪ .‬در مقایسه با الگوریتم های ‪ Q-Learning‬و ‪ ،A3C‬پس از اضافه کردن یادگیری تقویتی‪،‬‬
‫زمان همگرایی برنامه ریزی مسیر ربات ‪ ٪13.54‬افزایش می یابد‪ .‬در مقایسه با الگوریتم های ‪Q-‬‬
‫‪ Learning‬و ‪ ،DQN‬پس از اضافه کردن الگوریتم شبکه عصبی‪ ،‬زمان همگرایی برنامه ریزی‬
‫مسیر ربات ‪ ٪33.85‬افزایش می یابد که واضح ترین پیشرفت است‪ .‬با مقایسه شبکه های عصبی‬
‫مختلف‪ ،‬مشخص شد که زمان همگرایی الگوریتم ‪ DDQN‬با افزایش ‪ Q-value‬به شدت بهبود‬
‫یافته است و زمان همگرایی برنامه ریزی مسیر در مقایسه با الگوریتم قبلی ‪Q-Learning‬‬
‫‪ 94.44٪‬بهبود یافته است‪ .‬برای الگوریتم ‪ DDPG‬مبتنی بر شبکه عصبی و ‪ ،HRL‬زمان همگرایی‬
‫الگوریتم تحت عدد ناهمزمان به طور متوسط ‪ s 1.34‬است که ‪ ٪55.52‬سریعتر از الگوریتم‬
‫‪ DDQN‬بهینه‬
‫است‪.‬‬
‫شکل ‪ .9‬ارزیابی زمان همگرایی و‬

‫عملکرد پاداش تجمعی الگوریتم‬
‫های مختلف برنامه ریزی مسیر‬
‫‪ QL‬الگوریتم( ربات متحرک‬
‫‪ Q-‬نشان دهنده الگوریتم‬

ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند

Uploaded by

Copyright:

Available Formats

‫ربات های متحرک موجود نمی توانند برخی از توابع را تکمیل کنند‪ .

‬برای حل این مشکالت‪ ،‬که‬

‫شعاع انحنای لحظه ای ‪ R‬به این صورت است‪:‬‬

‫می تواند‬ ‫به سمت‬ ‫حرکت از موقعیت‬

‫بردار خروجی باید ‪:‬‬

‫ورودی نورون الیه پنهان باید ‪:‬‬

‫که در ان ‪ : SL‬تعداد نورون ها در الیه ‪ 1‬است؛ با فرض اینکه ‪𝑤 𝑙 ij‬‬

‫سپس استراتژی بهینه به شرح زیر محاسبه می شود ‪:‬‬

‫الگوریتم های مختلف تشخیص برنامه ریزی مسیر‬

‫شکل ‪ .4‬نمودار شماتیک روش برنامه ریزی مسیر‪Q-‬‬

‫شکل ‪ .5‬نمودار شماتیک ساختار تابع تقریب شبکه‬

‫)‪(3‬پتانسیل )‪ DQN (PDQN‬الگوریتم بهبود الگوریتم ‪ DQN‬است‪ .‬هدف اصلی ان سرعت‬

‫شکل ‪ .6‬ساختار الگوریتم شبکه‬

‫تشخیص عمدتا از تابع )( ‪ summary.value.add‬در ‪ TensorFlow‬برای اضافه کردن‬

‫نتایج و بحث ها‬

‫شکل ‪ .7‬نتایج تجربی الگوریتم های مختلف برنامه ریزی‬

‫شکل ‪ .9‬ارزیابی زمان همگرایی و‬

You might also like