مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

1,076
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

607
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد

صفحات

 صفحه شروع 137 | صفحه پایان 146

چکیده

 روش یادگیری Q یکی از مشهورترین و پرکاربردترین روش های یادگیری تقویتی مستقل از مدل است. از جمله مزایای این روش عدم وابستگی به آگاهی از دانش پیشین و تضمین در رسیدن به پاسخ بهینه است. یکی از محدودیت های این روش کاهش سرعت همگرایی آن با افزایش بعد است. بنابراین افزایش سرعت همگرایی به عنوان یک چالش مطرح است. استفاده از مفاهیم عمل متضاد در یادگیری Q, منجر به بهبود سرعت همگرایی می شود زیرا در هر گام یادگیری, دو مقدار Q به طور هم زمان به روز می شوند. در این مقاله روشی ترکیبی با استفاده از رویه تطبیقی در کنار مفاهیم عمل متضاد برای افزایش سرعت همگرایی مطرح شده است. روش ها برای مساله Grid world شبیه سازی شده است. روش های ارائه شده بهبود در میانگین درصد نرخ موفقیت, میانگین درصد حالت های بهینه, متوسط تعداد گام های عامل برای رسیدن به هدف و میانگین پاداش دریافتی را نشان می دهند.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    پویان، مریم، گلزاری، شهرام، موسوی، امین، و حاتم، احمد. (1395). بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر، 14(2)، 137-146. SID. https://sid.ir/paper/228376/fa

    Vancouver: کپی

    پویان مریم، گلزاری شهرام، موسوی امین، حاتم احمد. بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر[Internet]. 1395؛14(2):137-146. Available from: https://sid.ir/paper/228376/fa

    IEEE: کپی

    مریم پویان، شهرام گلزاری، امین موسوی، و احمد حاتم، “بهبود یادگیری Q با استفاده از هم زمانی به روزرسانی و رویه تطبیقی بر پایه عمل متضاد،” مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر، vol. 14، no. 2، pp. 137–146، 1395، [Online]. Available: https://sid.ir/paper/228376/fa

    مقالات مرتبط نشریه ای

    مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button