فرآیند تصمیم گیری مارکوف یا MDP، یکی از مسایلی است که دارای کاربردهای وسیعی در زمینه های مختلف علمی، مهندسی، اقتصادی و مدیریت است. بسیاری از فرآیندهای تصمیم گیری، دارای خاصیت مارکوف می باشند و به صورت یک مساله تصمیم گیری مارکوف قابل بیان هستند. یادگیری تقویتی یکی از رویکردهایی است که برای حل MDP به کار می رود، و به نوبه خود از برنامه ریزی پویا یا DP استفاده می کند. در این نوشتار الگوریتم ارزیابی سیاست، که در بحث یادگیری تقویتی و DP برای حل MDP به کار می رود، به صورت معادله دینامیکی یک سیستم دیجیتال یا گسسته- زمان بازنویسی شده است. به این ترتیب این امکان به وجود آمده است که بتوان با بهره گیری از روش های موجود در کنترل دیجیتال، به بررسی خواص معادلات به دست آمده پرداخت و تحلیل مناسبی از رفتار عامل یادگیرنده، تحت سیاست های مختلف، به عمل آورد. روش مذکور برای تحلیل دو مساله جدولی استفاده شده است و سپس نتایج کلی در خصوص مسایل جدولی بیان و اثبات شده اند. به عنوان مثال، نتایج به دست آمده نشان می دهند که سیاست بهینه برای هر مساله جدولی، در چارچوب کنترل دیجیتال، به صورت یک سیستم مرده نوش یا Dead Beat قابل توصیف است.