مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

757
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

555
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

پیما: پیکره برچسب خورده موجودیت های اسمی زبان فارسی

صفحات

 صفحه شروع 91 | صفحه پایان 109

چکیده

 هدف در مسأله تشخیص موجودیت های اسمی, رده بندی اسامی خاص متن با برچسب هایی همچون شخص, مکان, و سازمان است. این مسأله به عنوان یکی از گام های پیشپردازشی بسیاری از مسائل پردازش زبان طبیعی مطرح است. اگر چه در زبان انگلیسی پژوهش های زیادی در این حوزه انجام شده و سامانه ها به کیفیت F1 بالای نود درصد دست یافته اند, در زبان فارسی به دلیل نبود یک مجموعه داده استاندارد, پژوهش های کمی در این زمینه انجام شده است. در این پژوهش به ساخت چنین مجموعه داده ای می پردازیم و آن را به صورت آزاد در اختیار پژوهش گران قرار می دهیم؛ سپس با استفاده از این مجموعه داده به طراحی سامانه آماری با استفاده از مدل میدان های تصادفی شرطی و نیز سامانه ای مبتنی بر شبکه های عصبی بازگشتی از نوع LSTM برای تشخیص موجودیت های اسمی می پردازیم. در پیکره ایجاد شده هفت نوع موجودیت شخص, مکان, سازمان, زمان, تاریخ, درصد, و مقادیر پولی برچسب خورده اند و در نتیجه تمام ارزیابی های سامانه طراحی شده بر روی این هفت برچسب انجام می گیرد. برای طراحی این سامانه, پس از آموزش یک سامانه آماری مبتنی بر الگوریتم CRF, از خروجی این سامانه به عنوان یک ویژگی برای آموزش یک شبکه عصبی بازگشتی LSTM دوطرفه استفاده می کنیم. علاوه بر این ویژگی, از خوشه بندی واژگان به روش k-means نیز بهره می بریم. برای این کار, شماره خوشه واژگان را به عنوان یک ویژگی در اختیار شبکه عصبی LSTM قرار می دهیم و به این ترتیب سامانه ترکیبی نهایی ساخته می شود. این شیوه ترکیب مدل CRF با مدل شبکه عصبی و نیز استفاده از شماره خوشه برای هر واژه در روش خوشه بندی k-means نوآوری این پژوهش محسوب می شود. نتایج آزمایش ها نشان می دهد که با استفاده از مدل نهایی به F1 برابر با 87 درصد در سطح واژه و هشتاد درصد در سطح عبارت موجودیت اسمی می رسیم. همچنین آزمایش ها نشان می دهد که روش پیشنهادی برای استفاده از خروجی مدل CRF به عنوان یک ویژگی در ورودی مدل شبکه عصبی باعث می شود که با در اختیار داشتن حجم کمتری از داده برچسب خورده به کیفیت قابل قبولی در تشخیص موجودیت های اسمی برسیم که این مسأله می تواند در زبان هایی که حجم داده برچسب خورده آن ها محدود است, مفید باشد.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    شهشهانی، مهساسادات، محسنی، مهدی، شاکری سیاوشانی، آزاده، و فیلی، هشام. (1398). پیما: پیکره برچسب خورده موجودیت های اسمی زبان فارسی. پردازش علایم و داده ها، 16(1 (پیاپی 39) )، 91-109. SID. https://sid.ir/paper/160894/fa

    Vancouver: کپی

    شهشهانی مهساسادات، محسنی مهدی، شاکری سیاوشانی آزاده، فیلی هشام. پیما: پیکره برچسب خورده موجودیت های اسمی زبان فارسی. پردازش علایم و داده ها[Internet]. 1398؛16(1 (پیاپی 39) ):91-109. Available from: https://sid.ir/paper/160894/fa

    IEEE: کپی

    مهساسادات شهشهانی، مهدی محسنی، آزاده شاکری سیاوشانی، و هشام فیلی، “پیما: پیکره برچسب خورده موجودیت های اسمی زبان فارسی،” پردازش علایم و داده ها، vol. 16، no. 1 (پیاپی 39) ، pp. 91–109، 1398، [Online]. Available: https://sid.ir/paper/160894/fa

    مقالات مرتبط نشریه ای

    مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا