یادگیری تقویتی چیست؟

تاریخ: 1401/06/22

بازدید: 2307

زمان مطالعه: 3 دقیقه / لینک کوتاه:

وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی

یادگیری تقویتی یا reinforcement learning، زیر شاخه‌ای از یادگیری ماشین است. یادگیری تقویتی، آموزش مدل‌های یادگیری ماشین برای تصمیم گیری متوالی است. در یادگیری تقویتی، عامل یاد می‌گیرد تا در محیط نامشخص و پیچیده بالقوه به یک هدف دست یابد. در یادگیری تقویتی، یادگیرنده و تصمیم گیرنده را عامل و چیزی را که با عامل تعامل دارد، که شامل هر چیز خارج از عامل را محیط می نامند. یادگیری تقویتی، بر پایه هوش مصنوعی با موقعیتی شبیه به بازی است. کامپیوتر از آزمون و خطا برای پیدا کردن راه حلی برای مشکل استفاده می‌کند. برای اینکه ماشین بتواند کاری را که برنامه نویس می‌خواهد را انجام دهد، هوش مصنوعی برای اقدامی که انجام می‌دهد پاداش یا جریمه در نظر می‌گیرد. هدف سیستم طراحی شده به حداکثر رساندن پاداش است.

طراح، سیاست پاداش را تعیین می‌کند، و هیچ پیشنهاد یا راهنمایی را برای نحوه حل بازی به مدل ارائه نمی‌کند. این مدل تلاش می‌کند تا بفهمد در چه صورت بالاترین پاداش را دریافت کند، مدل از آزمایش های خیلی تصادفی شروع می‌شود و با تکنیک های پیچیده و مهارت های مافوق بشری تمام می‌شود. اخیرا یادگیری تقویتی، با استفاده از قدرت جستجو و انجام آزمایش‌های زیاد به یکی از تاثیرگذارترین راه‌ها برای اشاره به خلاقیت ماشین تبدیل شده است. اگر یک الگوریتم یادگیری تقویتی، روی زیر ساخت رایانه‌ای قدرتمند اجرا شود، هوش مصنوعی می‌تواند تجربیات هزاران بازی موازی را جمع آوری کند.

برای دریافت آخرین‌های بلاگ در خبرنامه عضو شوید.

یادگیری تقویتی

نمونه هایی از یادگیری تقویتی

در گذشته، کاربردهای یادگیری تقویتی به دلیل ضعف زیرساخت های کامپیوتر محدود بود. با وجود ضعف کامپیوتر، بازی Gerard Tesauro’s backgammon در سال 1990 توسعه یافت. این پیشرفت اولیه با فناوری‌های محاسباتی قدرتمندتر به سرعت در حال تغییر است.

مدل‌هایی که خودروهای خودران را کنترل می‌کنند نمونه‌ای عالی از کاربردهای بالقوه یادگیری تقویتی است. در شرایط ایده‌آل، کامپیوترها نباید هیچ دستوری برای راندن ماشین از راننده بگیرند. برنامه نویس از نوشتن کد هرچیزی که با کار مرتبط است اجتناب می‌کند و به سیستم اجازه می‌دهد تا از اشتباهات خود درس بگیرد.

وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی

وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی[1]، توسط پروفسور Vaneet Aggarwal از دانشگاه پوردو برگزار شد. Vaneet Aggarwal با داشتن 5457 استناد و شاخص هرش 37 در گوگل اسکالر از محققان به نام در حوزه موضوعی یادگیری تقویتی است. وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی روز چهارشنبه 23 شهریور 1401، ساعت 14و 30 دقیقه توسط دانشگاه صنعتی شریف برگزار شد.

یادگیری تقویتی