در این مقاله، تشخیص وقایع بصری در ویدئو، با بهره گیری از اطلاعات زمانی سیگنال، به صورت تحلیلی موردتوجه قرار دارد. با استفاده از یادگیری انتقالی، توصیف گرهای آموزش دیده روی تصاویر به ویدئو اعمال می شوند تا تشخیص وقایع را با استفاده از منابع محاسباتی محدود، ممکن سازند. در این مقاله، یک شبکه عصبی کانولوشنی به عنوان استخراج کننده نمرات مفاهیم از قاب های ویدئو به کار می رود. ابتدا پارامترهای این شبکه روی زیرمجموعه ای از داده های آموزش تنظیم دقیق می شوند؛ سپس، توصیف گرهای خروجی از لایه های تمام متصل آن به عنوان توصیف گر سطح قاب مورداستفاده قرار می گیرند. توصیف گرهای به دست آمده، کدگذاری و در نهایت نرمالیزه سازی و طبقه بندی می شوند. نوآوری عمده این مقاله، ترکیب اطلاعات زمانی ویدئو در کدگذاری توصیف گرهای آن است. گنجاندن ساختاری اطلاعات بصری در فرایند کدگذاری توصیف گرهای ویدئویی، ، اغلب نادیده گرفته می شود. این موضوع به کاهش دقت منجر می شود. برای حل این مسأله، یک روش کدگذاری نوین ارائه می شود که مصالحه بین پیچیدگی محاسبات و دقت در شناسایی وقایع ویدیویی را بهبود می دهد. در این کدگذاری، بعد زمانی سیگنال ویدئویی برای ساخت یک بردار مکانی-زمانی از توصیف گرهای مجتمع محلی ( VLAD ) استفاده، سپس نشان داده می شود که کدگذاری پیشنهادی ماهیتاً یک مسأله بهینه سازی است که با الگوریتم های موجود به راحتی قابل حل است. در مقایسه با بهترین روش های موجود در حوزه تشخیص وقایع بصری مبتنی بر توصیف گرهای سطح قاب، روش پیشنهادی مدل بهتری را از ویدئو ارائه می کند. روش ارائه شده بر حسب سه معیار میانگین دقت متوسط، میانگین فراخوانی متوسط و معیار F به عملکرد بالاتری بر روی هر دو مجموعه داده آزمون مورد بررسی دست می یابد. نتایج به دست آمده توانمندی روش پیشنهادی را در بهبود عملکرد سامانه های تشخیص وقایع بصری تأیید می کنند.