مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

287
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

514
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

تشخیص عبارت های گفتاری برای اخبار فارسی صداوسیمای جمهوری اسلامی ایران

صفحات

 صفحه شروع 67 | صفحه پایان 88

چکیده

 هدف از تشخیص عبارت های گفتاری یا جستجوی کلیدواژه, تشخیص و جستجوی مجموعه ای از کلیدواژه ها در مجموعه ای از اسناد گفتاری (مانند سخنرانی ها, جلسه ها) است. در این پژوهش تشخیص عبارت های گفتاری فارسی برپایه سامانه های بازشناسی گفتار با کاربرد در بازیابی اطلاعات در بایگانی های گفتاری و ویدئویی سازمان صدا و سیما طراحی و پیاده سازی شده است. برای این کار, ابتدا اسناد گفتاری به متن, بازشناسی, سپس بر روی این متون جستجو انجام می شود. برای آموزش سامانه بازشناسی گفتار فارسی, دادگان فارس دات بزرگ به کار رفته است. این سامانه به نرخ خطای واژه 71/2 درصد بر روی همین دادگان و 23/28 درصد بر روی دادگان اخبار فارسی با استفاده از مدل زیر فضای مخلوط گوسی (SGMM) رسید. برای تشخیص عبارت های گفتاری از روش پایه واژگان نماینده استفاده شده و با استفاده از شبکه حافظه کوتاه-مدت ماندگار و دسته بندی زمانی پیوندگرا (LSTM-CTC) روشی برای بهبود تشخیص واژگان خارج از واژگان (OOV) پیشنهاد شده است. کارایی سامانه تشخیص عبارات با روش واژه های نماینده بر روی دادگان فارس دات بزرگ بر طبق معیار ارزش وزنی واقعی عبارت (ATWV) برابر با 9206/0 برای کلیدواژه های داخل واژگان و برابر با 2/0 برای کلیدواژه های خارج از واژگان رسید که این نرخ برای واژگان OOV با استفاده از روش LSTM-CTC با حدود پنجاه درصد بهبود به مقدار 3058/0 رسید؛ همچنین, در تشخیص عبارت های گفتاری بر روی دادگان اخبار فارسی, ATWV برابر 8008/0 حاصل شد.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    ویسی، هادی، قریشی، سیداکبر، و باستان فرد، اعظم. (1399). تشخیص عبارت های گفتاری برای اخبار فارسی صداوسیمای جمهوری اسلامی ایران. پردازش علایم و داده ها، 17(4 (46 پیاپی) )، 67-88. SID. https://sid.ir/paper/955339/fa

    Vancouver: کپی

    ویسی هادی، قریشی سیداکبر، باستان فرد اعظم. تشخیص عبارت های گفتاری برای اخبار فارسی صداوسیمای جمهوری اسلامی ایران. پردازش علایم و داده ها[Internet]. 1399؛17(4 (46 پیاپی) ):67-88. Available from: https://sid.ir/paper/955339/fa

    IEEE: کپی

    هادی ویسی، سیداکبر قریشی، و اعظم باستان فرد، “تشخیص عبارت های گفتاری برای اخبار فارسی صداوسیمای جمهوری اسلامی ایران،” پردازش علایم و داده ها، vol. 17، no. 4 (46 پیاپی) ، pp. 67–88، 1399، [Online]. Available: https://sid.ir/paper/955339/fa

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button