مدلی مبتنی بر آنتروپی و اتوماتاهای یادگیر برای حل بازی های تصادفی

Q: چگونه مقاله دانلود کنم؟

برای دانلود مقاله از SID، ابتدا وارد سایت شوید، عنوان مقاله را جستجو کرده و بر روی گزینه 'دانلود مقاله' کلیک کنید.

Q: چگونه مقاله ISI دانلود کنم؟

برای دانلود مقاله ISI در SID، کلمه کلیدی یا عنوان مقاله را در نوار جستجو وارد کرده و نتایج مرتبط را مشاهده کنید. سپس روی مقاله مورد نظر کلیک کرده و گزینه 'دانلود مقاله' را انتخاب کنید.

Q: چگونه میتوانم به پایگاه داده SID دسترسی داشته باشم؟

برای دسترسی به پایگاه داده SID، وارد سایت SID.ir شوید، یک حساب کاربری ایجاد کنید و سپس با ورود به حساب خود به منابع علمی دسترسی پیدا کنید.

Q: آیا دانلود مقاله از SID رایگان است؟

بعضی از مقالات در SID بهصورت رایگان در دسترس هستند، اما برخی دیگر نیاز به پرداخت هزینه دارند. اطلاعات بیشتر در صفحه مقاله مشخص شده است.

معصومی بهروز; میبدی محمدرضا

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

مقاله مقاله نشریه

مشخصات مقاله

نشریه: مهندسی برق و مهندسی کامپیوتر ایران، الف- مهندسی برق
:1389 | دوره:8 | شماره:2
صفحات :97-106

دانلود متن کامل

نسخه انگلیسی

بازدید:

1,410

دانلود:

630

استناد:

اطلاعات مقاله نشریه

عنوان

مدلی مبتنی بر آنتروپی و اتوماتاهای یادگیر برای حل بازی های تصادفی

نویسندگان

معصومی بهروز | میبدی محمدرضا | صدور گواهی نویسنده

کلیدواژه

آنتروپیQ2

اتوماتاهای یادگیرQ4

بازی های تصادفیQ3

سیستم های چندعاملهQ2

چکیده

بازی های غیر قطعی (تصادفی) به عنوان توسعه ای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستم های چندعامله و مدل سازی آنها حایز اهمیت بوده و به عنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله به کار رفته اند. در حال حاضر اتوماتاهای یادگیر به عنوان ابزاری ارزشمند در طراحی الگوریتم های یادگیری چندعامله به کار رفته اند. در این مقاله مدلی مبتنی بر اتوماتای یادگیر و مفهوم آنتروپی برای حل بازی های غیر قطعی و پیداکردن سیاست بهینه در این بازی ها ارایه شده است. در مدل پیشنهادی به ازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیر با ساختار متغیر از نوع S قرار داده شده است که اعمال بهینه را در هر حالت یاد می گیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب می کند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداش دهی اتوماتاها و بهبود یادگیری استفاده شده است. برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری به نام آنتروپی کلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان می کند. در نهایت الگوریتمی اصلاح یافته با ایجاد تعادل بین جستجو و استناد بر تجربیات پیشنهاد شده است. نتایج آزمایش ها نشان می دهد الگوریتم ارایه شده از کارایی مناسبی از هر دو جنبه هزینه و سرعت رسیدن به راه حل بهینه برخوردار است.

استنادها

ثبت نشده است.

ارجاعات

ثبت نشده است.

استناددهی

APA: کپی

معصومی، بهروز، و میبدی، محمدرضا. (1389). مدلی مبتنی بر آنتروپی و اتوماتاهای یادگیر برای حل بازی های تصادفی. مهندسی برق و مهندسی کامپیوتر ایران، 8(2)، 97-106. SID. https://sid.ir/paper/53820/fa

Vancouver: کپی

معصومی بهروز، میبدی محمدرضا. مدلی مبتنی بر آنتروپی و اتوماتاهای یادگیر برای حل بازی های تصادفی. مهندسی برق و مهندسی کامپیوتر ایران[Internet]. 1389؛8(2):97-106. Available from: https://sid.ir/paper/53820/fa

IEEE: کپی

بهروز معصومی، و محمدرضا میبدی، “مدلی مبتنی بر آنتروپی و اتوماتاهای یادگیر برای حل بازی های تصادفی،” مهندسی برق و مهندسی کامپیوتر ایران، vol. 8، no. 2، pp. 97–106، 1389، [Online]. Available: https://sid.ir/paper/53820/fa

مقالات مرتبط نشریه ای