حجم وسیعی از تحقیقات در زمینه یادگیری برخط به مساله غلبه بر فراموشی فاجعه بار تمرکز کرده اند و تحقیقات اندکی در زمینه طبقه بندی داده های جریانی با صحت و زمان اجرای مناسب تمرکز کرده اند. از سوی دیگر، به دلیل حجم و نوع داده های جریانی بسیاری از الگوریتم های سنتی یادگیری ماشین به خودی خود کارایی لازم هنگام مواجه با آنها را ندارند. بنابراین، در این مقاله برای طبقه بندی داده های جریانی با صحت و زمان یادگیری مناسب یک مدل جدید با استفاده از یادگیری تقویتی و الگوریتم گرادیان کاهشی تصادفی ارائه شده است. یکی از قابلیت های مهم یادگیری تقویتی این است که عامل می تواند رفتار خود را به تدریج با تغییراتی که رخ می دهد سازگار کند و به صورت تدریجی بر دانش قبلی خود بیافزاید. در این پژوهش به دلیل استفاده از یادگیری تقویتی و تعریف پاداش، عامل عملکرد بهتری در محیط دارد. الگوریتم پیشنهادی بر روی داده های مختلف از جمله مجموعه داده جریانی تشخیص فعالیت های انسانی آزمایش شده و از لحاظ صحت و زمان اجرا با چندین الگوریتم افزایشی مقایسه شده است. طبق نتایج آزمایشگاهی الگوریتم پیشنهادی بهترین کارایی را هم از نظر صحت و هم از نظر زمان اجرا در مقایسه با سایر الگوریتم های افزایشی دارد.