1این مقاله روشی جدید در استفاده از داده های جمع آوری شده از حرکت تصادفی عامل در محیط برای تنظیم اولیه ی پارامترهای یک کنترلگر با ساختار یادگیری تقویتی فازی ارائه می دهد. کندی سرعت آموزش و تعداد شکست بالا در زمان آموزش دو چالش مهم در این قبیل ساختارها هستند. مقداردهی اولیه ی پارامترهای سیستم فازی می تواند راهکار مناسبی برای رفع این چالش ها باشد. در این مقاله با تعمیم روش تکرار ارزش گسسته به پیوسته بدون بهره گیری از روش های مبتنی بر مشتق، پارامترهای سیستم فازی مقدار دهی اولیه می شوند. ابتدا با تعامل تصادفی عامل با محیط داده های مرتبط جمع آوری می شود. با توجه به آنکه فضای حالت پیوسته است، داده ها به طور مناسب خوشه بندی شده و هر خوشه به عنوان یک حالت لحاظ می گردد. آنگاه با تعمیم روش تکرار ارزش استاندارد به پیوسته ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه می شود. با استفاده از نتایج این مرحله پارامترهای ساختار یادگیری تقویتی فازی مقدار دهی اولیه می شوند. پس آز آن پارامترهای این ساختار به صورت برخط با روش یادگیری تقویتی تنظیم نهایی می گردند. روش ارایه شده "یادگیری تقویتی فازی مبتنی بر تکرار ارزش" نامیده می شود و در مسئله ی ربات تعقیب کننده ی هدف مورد استفاده قرار می گیرد. نتایج آزمایش ها حاکی از بهبود قابل توجه عملکرد روش ارائه شده در مسئله ی ربات تعقیب کننده ی هدف است.