مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

516
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

476
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

روشی جدید جهت استخراج موجودیت های اسمی در عربی کلاسیک

صفحات

 صفحه شروع 59 | صفحه پایان 74

چکیده

تشخیص واحدهای اسمی به عنوان یکی از سامانه های پردازش زبان طبیعی عبارت است از تشخیص اسامی خاص و طبقه بندی آن ها به یکی از گروه های شخص, مکان, سازمان و زمان. این عملیات به دلیل تاثیر قابل توجه در بهبود کارایی دیگر حوزه های پردازش زبان طبیعی مانند ترجمه ماشین, بازیابی اطلاعات, خوشه بندی نتایج جستجو و پرسش و پاسخ, در سال های اخیر مورد توجه محققان در زبان عربی نیز قرار گرفته است. گرچه بیشتر تحقیقات در این حوزه روی عربی استاندارد امروزی انجام شده است, اما در این مطالعه عربی کلاسیک مورد توجه است. در همین راستا, روشی جدید جهت تشخیص واحدهای اسمی در زبان عربی ارائه می گردد. در این تحقیق یک پیکره متنی عربی کلاسیک به نام نورکورپ, متشکل از 130 هزار کلمه برچسب گذاری شده توسط متخصصین, معرفی می گردد. همچنین از یک فرهنگ لغات شامل 18000 اسم شخص که از کتب حدیثی استخراج شده است به عنوان منابع خارجی استفاده می شود. مدل پیش بینی, بر اساس مجمع رده بندها و یک روش دو-مرحله ای پیشنهاد شده است به طوری که در مرحله اول تشخیص واحدهای اسمی از طریق الگوریتم آدابوست M1 و در مرحله دوم طبقه بندی آن ها به گروه های از پیش تعیین شده توسط الگوریتم آدابوست M2 انجام می گیرد. به منظور غلبه بر چالش های زبان عربی عملیات نشانه گذاری, برچسب گذاری ادات سخن و قطعه کردن عبارت پایه به کار گرفته شده است. با استفاده از یک روش آماری, برخی از کلمات پر کاربرد در واحدهای اسمی به عنوان کلمات کلیدی استخراج شدند. نتیجه به دست آمده از مدل پیشنهادی در ارزیابی F-measure معادل 85/86 درصد است که بیانگر عملکرد مطلوب مدل می باشد. در آخر, روش پیشنهادی روی یک پیکره استاندارد امروزی به نام انرکورپ اعمال و نتایج با پیکره نورکورپ مقایسه شده اند.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    سجادی، سیدمحمدباقر، رشیدی، حسن، و مینایی بیدگلی، بهروز. (1396). روشی جدید جهت استخراج موجودیت های اسمی در عربی کلاسیک. پردازش علایم و داده ها، 14(2 (پیاپی 32) )، 59-74. SID. https://sid.ir/paper/160751/fa

    Vancouver: کپی

    سجادی سیدمحمدباقر، رشیدی حسن، مینایی بیدگلی بهروز. روشی جدید جهت استخراج موجودیت های اسمی در عربی کلاسیک. پردازش علایم و داده ها[Internet]. 1396؛14(2 (پیاپی 32) ):59-74. Available from: https://sid.ir/paper/160751/fa

    IEEE: کپی

    سیدمحمدباقر سجادی، حسن رشیدی، و بهروز مینایی بیدگلی، “روشی جدید جهت استخراج موجودیت های اسمی در عربی کلاسیک،” پردازش علایم و داده ها، vol. 14، no. 2 (پیاپی 32) ، pp. 59–74، 1396، [Online]. Available: https://sid.ir/paper/160751/fa

    مقالات مرتبط نشریه ای

    مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا