در این مقاله، برنامه ریزی بهره برداری ریزشبکه ها مشتمل بر منابع تولید انرژی و سیستم های ذخیره انرژی مبتنی بر یادگیری تقویتی عمیق ارائه شده است. با توجه به خاصیت پویایی مسئله، ابتدا در قالب یک فرایند تصمیم گیری مارکوف متشکل از چهارتایی (حالت، اقدام، تابع احتمال انتقال و پاداش) فرمول بندی شده است. سپس، الگوریتم گرادیان استراتژی قطعی عمیق به منظور یادگیری استراتژی بهینۀ برنامه ریزی بهره برداری ریزشبکه با هدف کمینه کردن هزینه های بهره برداری ارائه شده است. این الگوریتم یک روش بی نیاز از مدل، مستقل از استراتژی و بر مبنای معماری عامل-نقاد است که می تواند به خوبی فضای حالت و اقدام مسئله را به صورت پیوسته مدل سازی و بر چالش بزرگ بودن ابعاد مسئله غلبه کند. به منظور ارزیابی الگوریتم ارائه شده، نتایج با الگوریتم یادگیری Q عمیق و روش تحلیلی مقایسه شد. نتایج حاصل از شبیه سازی، کارایی الگوریتم گرادیان استراتژی قطعی عمیق ارائه شده را از جهت همگرایی، زمان اجرا و هزینۀ کل نشان دادند.