مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

182
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

490
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

بهبود دقت واژگان کلیدی استخراج شده از متن فارسی با استفاده از الگوریتم Word2Vec

صفحات

 صفحه شروع 51 | صفحه پایان 60

چکیده

 واژگان کلیدی لغات مهمی از سند هستند که بیان گر توصیفی از متن هستند و نقش بسیار مهمی در فهم دقیق و سریع از محتوا دارند. شناسایی واژگان کلیدی از متن با روش های معمول کاری زمان بر و پرهزینه است. در این مقاله ابتدا با استفاده از شبکه عصبی پیشرو و از طریق الگوریتم word2Vec ماتریس همبستگی واژگان را به ازای یک سند محاسبه و سپس با استفاده از ماتریس همبستگی و یک فهرست اولیه محدود از واژگان کلیدی, نزدیک ترین واژگان را از نظر شباهت در قالب فهرست نزدیک ترین همسایگی ­ ها استخراج می کنیم. فهرست به دست آمده را به صورت نزولی مرتب و از ابتدای فهرست, درصدهای مختلفی از واژگان را انتخاب و به ازای هر درصد, ده مرتبه فرایند آموزش شبکه عصبی و ساخت ماتریس همبستگی و استخراج فهرست نزدیک ترین ­ همسایگی ­ ها را تکرار و در نهایت میانگین دقت, فراخوانی و معیارF را محاسبه می کنیم. این کار را تا جایی ادامه می ­ دهیم که به بهترین نتایج در ارزیابی دست یابیم؛ نتایج نشان می­ دهند که به ازای انتخاب حداکثر چهل درصدِ واژگان از ابتدای فهرستِ نزدیک ترین همسایگی­ ها, نتایج مورد قبولی به دست می ­ آید. الگوریتم بر روی پیکره ای با هشتصد خبر که به صورت دستی واژگان کلیدی آن ها را استخراج کرده ایم, آزمایش شده است و نتایج آزمایش ها نشان می دهد که دقت روش پیشنهادی 78 درصد خواهد بود.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    حسنی آهنگر، محمدرضا، و امیری جزه، علی. (1400). بهبود دقت واژگان کلیدی استخراج شده از متن فارسی با استفاده از الگوریتم Word2Vec. پردازش علایم و داده ها، 18(1 (پیاپی 47) )، 51-60. SID. https://sid.ir/paper/954942/fa

    Vancouver: کپی

    حسنی آهنگر محمدرضا، امیری جزه علی. بهبود دقت واژگان کلیدی استخراج شده از متن فارسی با استفاده از الگوریتم Word2Vec. پردازش علایم و داده ها[Internet]. 1400؛18(1 (پیاپی 47) ):51-60. Available from: https://sid.ir/paper/954942/fa

    IEEE: کپی

    محمدرضا حسنی آهنگر، و علی امیری جزه، “بهبود دقت واژگان کلیدی استخراج شده از متن فارسی با استفاده از الگوریتم Word2Vec،” پردازش علایم و داده ها، vol. 18، no. 1 (پیاپی 47) ، pp. 51–60، 1400، [Online]. Available: https://sid.ir/paper/954942/fa

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button