مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

2,155
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

837
Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

سیستم شناسایی و طبقه بندی اسامی در متون فارسی

صفحات

 صفحه شروع 77 | صفحه پایان 88

چکیده

 یک سیستم شناسایی و طبقه بندی اسامی, سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه بندی کند این اسامی می توانند اسامی اشخاص, ارگان ها, شرکت ها, اسامی مکان ها (کشور, شهر, خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی, درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است, اما در زبان فارسی, با توجه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی, تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدرها, اسامی زمان, اسامی شمارشی, اعداد را هم از مجموعه داده حذف می کند. این کار باعث می شود تا حجم طبقات در داده های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gram استفاده شده است. پس از استخراج ویژگی, سیستم را با چهار طبقه بندی کننده خطی, بیزین, نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر, این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه, اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (%99) و طبقه بندی کننده KNN و طبقه بندی کننده خطی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه بندی مقدار %91 بر اساس معیار F - measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار %96 بر اساس معیار F - measure به دست آمده است.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    اصفهانی، سیدعبدالحمید، راحتی قوچانی، سعید، و جهانگیری، نادر. (1389). سیستم شناسایی و طبقه بندی اسامی در متون فارسی. پردازش علایم و داده ها، -(1 (پیاپی 13))، 77-88. SID. https://sid.ir/paper/160693/fa

    Vancouver: کپی

    اصفهانی سیدعبدالحمید، راحتی قوچانی سعید، جهانگیری نادر. سیستم شناسایی و طبقه بندی اسامی در متون فارسی. پردازش علایم و داده ها[Internet]. 1389؛-(1 (پیاپی 13)):77-88. Available from: https://sid.ir/paper/160693/fa

    IEEE: کپی

    سیدعبدالحمید اصفهانی، سعید راحتی قوچانی، و نادر جهانگیری، “سیستم شناسایی و طبقه بندی اسامی در متون فارسی،” پردازش علایم و داده ها، vol. -، no. 1 (پیاپی 13)، pp. 77–88، 1389، [Online]. Available: https://sid.ir/paper/160693/fa

    مقالات مرتبط نشریه ای

    مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا