بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

یادگیری تقویتی چیست؟


وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی

یادگیری تقویتی یا reinforcement learning، زیر شاخه‌ای از یادگیری ماشین است. یادگیری تقویتی، آموزش مدل‌های یادگیری ماشین برای تصمیم گیری متوالی است. در یادگیری تقویتی، عامل یاد می‌گیرد تا در محیط نامشخص و پیچیده بالقوه به یک هدف دست یابد. در یادگیری تقویتی، یادگیرنده و تصمیم گیرنده را عامل و چیزی را که با عامل تعامل دارد، که شامل هر چیز خارج از عامل را محیط می نامند. یادگیری تقویتی، بر پایه هوش مصنوعی با موقعیتی شبیه به بازی است. کامپیوتر از آزمون و خطا برای پیدا کردن راه حلی برای مشکل استفاده می‌کند. برای اینکه ماشین بتواند کاری را که برنامه نویس می‌خواهد را انجام دهد، هوش مصنوعی برای اقدامی که انجام می‌دهد پاداش یا جریمه در نظر می‌گیرد. هدف سیستم طراحی شده به حداکثر رساندن پاداش است.

طراح، سیاست پاداش را تعیین می‌کند، و هیچ پیشنهاد یا راهنمایی را برای نحوه حل بازی به مدل ارائه نمی‌کند. این مدل تلاش می‌کند تا بفهمد در چه صورت بالاترین پاداش را دریافت کند، مدل از آزمایش های خیلی تصادفی شروع می‌شود و با تکنیک های پیچیده و مهارت های مافوق بشری تمام می‌شود.  اخیرا یادگیری تقویتی، با استفاده از قدرت جستجو و انجام آزمایش‌های زیاد به یکی از تاثیرگذارترین راه‌ها برای اشاره به خلاقیت ماشین تبدیل شده است. اگر یک الگوریتم یادگیری تقویتی، روی زیر ساخت رایانه‌ای قدرتمند اجرا شود، هوش مصنوعی می‌تواند تجربیات هزاران بازی موازی را جمع آوری کند.

 

برای دریافت آخرین‌های بلاگ در خبرنامه عضو شوید.

یادگیری تقویتی

نمونه هایی از یادگیری تقویتی

در گذشته، کاربردهای یادگیری تقویتی به دلیل ضعف زیرساخت های کامپیوتر محدود بود. با وجود ضعف کامپیوتر، بازی Gerard Tesauro’s backgammon در سال 1990 توسعه یافت. این پیشرفت اولیه با فناوری‌های محاسباتی قدرتمندتر به سرعت در حال تغییر است.

مدل‌هایی که خودروهای خودران را کنترل می‌کنند نمونه‌ای عالی از کاربردهای بالقوه یادگیری تقویتی است. در شرایط ایده‌آل، کامپیوترها نباید هیچ دستوری برای راندن ماشین از راننده بگیرند. برنامه نویس از نوشتن کد هرچیزی که با کار مرتبط است اجتناب می‌کند و به سیستم اجازه می‌دهد تا از اشتباهات خود درس بگیرد.

وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی

وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی[1]، توسط پروفسور Vaneet Aggarwal از دانشگاه پوردو برگزار شد. Vaneet Aggarwal با داشتن 5457 استناد و شاخص هرش 37 در گوگل اسکالر از محققان به نام در حوزه موضوعی یادگیری تقویتی است. وبینار یادگیری تقویتی چند هدفه با ابزارها و محدودیت‌های غیر خطی روز چهارشنبه 23 شهریور 1401، ساعت 14و 30 دقیقه توسط دانشگاه صنعتی شریف برگزار شد. 

یادگیری تقویتی

 

 

[1] Multi-Objective Reinforcement Learning with Non-Linear Utilities and Constraints

لینک کوتاه

لینک کوتاه

بازگشت به بالا

پست های مرتبط

یادگیری ماشین چیست ؟

تاریخ: 1401/08/14

بازدید: 1238

1401

زمان مطالعه: 2 دقیقه

یادگیری ماشین، به فرآیندی گفته می‌شود که کامپیوتر بر اساس شواهد یا داده ها یاد می‌گیرد تا در برخی از وظایف مبتنی بر داده کمک کند.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

ساخت عکس با هوش مصنوعی

تاریخ: 1403/02/09

بازدید: 2024

1403

زمان مطالعه: 4 دقیقه

به هر هنر تصویری که با استفاده از برنامه های هوش مصنوعی ساخته می شود ، هنر هوش مصنوعی گفته می شود.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

رسم نمودار با هوش مصنوعی

تاریخ: 1403/04/23

بازدید: 5494

1403

زمان مطالعه: 2 دقیقه

با پیشرفت هوش مصنوعی در دو سال گذشته، بسیاری از وظایف انسان تغییر یافت.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

ساخت موسیقی با هوش مصنوعی

تاریخ: 1403/01/28

بازدید: 86193

1403

زمان مطالعه: 2 دقیقه

هوش مصنوعی (AI) چیست ؟

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

با هوش مصنوعی به کار رفته در Perplexity متن تولید کنید

تاریخ: 1402/02/30

بازدید: 5275

1402

زمان مطالعه: 2 دقیقه

Perplexity چیست؟

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

جمینی چیست ؟

تاریخ: 1402/12/16

بازدید: 6875

1402

زمان مطالعه: 3 دقیقه

هر تغییری در تکنولوژی شانس جدیدی را برای شناسایی و پیشبرد علم پیش روی جهان قرار می دهد، زندگی انسان را آسان می کند و منجر به بهبود زندگی انسان ها می شود.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

آیا باید به چت جی پی تی استناد دهیم ؟

تاریخ: 1403/04/11

بازدید: 440

1403

زمان مطالعه: 2 دقیقه

با ظهور چت جی پی تی و در دسترس بودن آن برای همه، استفاده از آن اشکال جدیدی به خود گرفت.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

متون ساخته شده توسط ChatGPT را با GPTKit شناسایی کنید

تاریخ: 1401/12/06

بازدید: 1434

1401

زمان مطالعه: 2 دقیقه

با توسعه یادگیری ماشین و هوش مصنوعی در سال های اخیر، ابزارهای زیادی تولید شده و در اختیار عموم قرار گرفته است.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

سفر در زمان با هوش مصنوعی

تاریخ: 1401/09/05

بازدید: 4789

1401

زمان مطالعه: 2 دقیقه

سفر در زمان با هوش مصنوعی، یکی از امکانات سایت MyHeritage است.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

با کمک هوش مصنوعی کتب الکترونیک پیدا کنید

تاریخ: 1402/03/22

بازدید: 3655

1402

زمان مطالعه: 3 دقیقه

هوش مصنوعی یک فناوری انقلابی نو ظهور است که توانایی یادگیری از داده ها و انجام وظایفی را که معمولاً به هوش انسانی نیاز دارند، دارد.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins