مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

مقاله مقاله نشریه

مشخصات مقاله

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

34
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

10
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

ساخت پیکره مقایسه ای تخصصی «پارسا»

صفحات

 صفحه شروع 219 | صفحه پایان 246

چکیده

 پیکره ­ها براساس زبان به کاررفته در متن های تشکیل ­دهندة آن­ها به پیکره­های تک­ زبانه, دوزبانه و چندزبانه گروه بندی می­شوند. پیکرة مقایسه ­ای, پیکره­ای است دوزبانه یا چندزبانه که شامل متن هایی است مشابه در حوزه­های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره ها در پژوهش های گوناگون همچون پژوهش­های زبانی, ترجمة ماشینی و سامانه های خودکار بازیابی اطلاعات بینازبانی, پژوهشگران همواره با کمبود پیکره های مقایسه­ ای مواجه بوده اند. در این مقاله, به معرفی مراحل ساخت یک پیکرة مقایسه ای تخصصی به نام «پارسا» پرداخته شده است. این پیکره از چکیده­های فارسی و انگلیسی پایان­ نامه ­ها و رساله ­های ثبت شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن های بسیار تخصصی در حوزه­های موضوعی کلان مانند علوم اجتماعی, علوم انسانی و هنر, فنی­ ومهندسی و رشته ­های مربوط به این حوزه­ها است و ازاین جنبه, برای پردازش­های زبانی که نیازمند بهره ­گرفتن از متن های تخصصی است, بسیار ارزشمند است. برای ساخت این پیکره, پس از نمونه ­گیری, داده­های فارسی وارد فرایند پیش ­پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P), فراخوان (R) و F1 سنجیده شد. دقت, 5614035088. 0, فراخوان,   0531561462. 0 و در پایان, F1 09711684370257966. 0 محاسبه شده است. سپس, داده­ها برچسب گذاری شدند (برچسب ­گذاری اجزای کلام) و برچسب­های متون فارسی کنترل شدند. داده­های انگلیسی نیز به صورت ماشینی برچسب گذاری شدند. شمار واژه های محتوایی (فعل, اسم, صفت, قید) داده­های فارسی این پیکره 57653813 و شمار واژه­های دستوری به همراه اعداد و علائم سجاوندی 31350125  است و بن­ واژه­های فارسی استخراج ­شده نیز شامل 41064 بن­ واژه است. شمار واژه­های محتوایی متون انگلیسی 45606686 و شمار واژه­های دستوری به همراه اعداد و علائم سجاوندی شامل 33662304 و بن واژه­های انگلیسی استخراج ­شده نیز شامل 12937 بن ­واژه است. پیکرۀ ساخته ‎شده قابلیت بسیار بالایی برای داده کاوی, پژوهش­های مربوط به ترجمه ماشینی و به کارگیری در تمام پژوهش هایی که بر روی متون علمی انجام می شود را دارا است.

چندرسانه ای

  • ثبت نشده است.
  • استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button