مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

966
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

601
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec

صفحات

 صفحه شروع 105 | صفحه پایان 114

چکیده

 با رشد روز افزون اسناد و متون الکترونیکی به زبان فارسی, به کارگیری روش هایی سریع و ارزان برای دسترسی به متون مورد نظر از میان مجموعه وسیع این مستندات, اهمیت بیشتری می یابد. برای رسیدن به این هدف, استخراج کلمات کلیدی که بیانگر مضمون اصلی متن باشند, روشی بسیار موثر است. تعداد تکرار یک کلمه در متن نمی تواند نشان دهنده اهمیت یک کلمه و کلیدی بودن آن باشد. همچنین در اکثر روش های استخراج کلمات کلیدی مفهوم و معنای متن نادیده گرفته می شوند. از طرفی دیگر بدون ساختار بودن متون جدید در اخبار و اسناد الکترونیکی, استخراج این کلمات را مشکل می سازد. در این مقاله روشی بدون نظارت و خودکار برای استخراج این کلمات در زبان فارسی که دارای ساختار مناسبی نمی باشد, پیشنهاد شده است که نه تنها احتمال رخ دادن کلمه در متن و تعداد تکرار آن را در نظر می گیرد, بلکه با آموزش مدل word2vec روی متن, مفهوم و معنای متن را نیز درک می کند. در روش پیشنهادی که روشی ترکیبی از دو مدل آماری و یادگیری ماشین می باشد, پس از آموزش word2vec روی متن, کلماتی که با سایر کلمات دارای فاصله کمی بوده استخراج شده و سپس با استفاده از هم رخدادی و فرکانس رابطه ای آماری برای محاسبه امتیاز پیشنهاد شده است. درنهایت با استفاده از حدآستانه کلمات با امتیاز بالاتر به عنوان کلمه کلیدی در نظر گرفته می شوند. ارزیابی ها بیانگر کارایی روش با معیار F برابر 53. 92% و با 11% افزایش نسبت به دیگر روش های استخراج کلمات کلیدی می باشد.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    حاجی پور، امید، و سدیدپور، سعیده سادات. (1399). استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec. پدافند الکترونیک و سایبری، 8(2 (پیاپی 30) )، 105-114. SID. https://sid.ir/paper/387111/fa

    Vancouver: کپی

    حاجی پور امید، سدیدپور سعیده سادات. استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec. پدافند الکترونیک و سایبری[Internet]. 1399؛8(2 (پیاپی 30) ):105-114. Available from: https://sid.ir/paper/387111/fa

    IEEE: کپی

    امید حاجی پور، و سعیده سادات سدیدپور، “استخراج خودکار کلمات کلیدی متون کوتاه فارسی با استفاده از word2vec،” پدافند الکترونیک و سایبری، vol. 8، no. 2 (پیاپی 30) ، pp. 105–114، 1399، [Online]. Available: https://sid.ir/paper/387111/fa

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا