مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

180
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

561
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی)

صفحات

 صفحه شروع 1039 | صفحه پایان 1064

چکیده

 امروزه شاهد گسترش استفاده از روش های پیکره بنیاد در زبان شناسی هستیم. پژوهش حاضر به بررسی تکنیک های بهبود عملکرد روش های بسامد شماری در زبان فارسی و با منظور دستیابی به رویه علمی جهت استخراج خودکار واژگان پایه علوم پزشکی انجام پذیرفته است. استفاده از روش های آماری در کنار ابزار زبانشناسی پیکره ای (روش های استخراج خودکار ترکیبی)جهت استخراج خودکار واژگان در تعدادی از زبانهای دنیا همچون انگلیسی, فرانسه, ژاپنی و کره ای طی چند دهه اخیر بسیار رایج بوده است, حال آنکه در زبان فارسی این روش ها تا کنون به صورت جدی مورد استفاده قرارگرفته نشده اند و اغلب استخراج ها در زبان فارسی به روش سنتی انجام گرفته اند. ضمن آنکه بکار گیری این روش ها در هر زبانی متفاوت است و در هر زبان با توجه به ویژگیهای زبانشاختی آن زبان برون داد روش های آماری متفاوت است. از این رو باید مطابق با ویژگیهای هر زبان در این روش ها تغییراتی اعمال کرد تا در نهایت بتوان به روشی جهت استخراج خودکار واژگان دست یافت. جهت نیل به این هدف در زبان فارسی, از خانواده مدل های بسامد شماری با رویکردهای بسامد شماری پیکره عمومی, بسامد شماری پیکره اختصاصی و روش های بهبودیافته آن ها استفاده شده است. بسامدشماری به کار رفته در پژوهش, برپایه پردازش اطلاعات واژگان در دو پیکره اصلی و اختصاصی که محقق آنرا ایجاد کرده است و از این پس آنرا پیکره محقق ساخته می نامیم, صورت گرفته است. پیکره محقق ساخته شامل متون درس زیست شناسی دوره اول تا چهارم دبیرستان, متون درس علوم دوم و سوم راهنمایی, متون تدریس شده در مرکزآموزش زبان فارسی امام خمینی قزوین, مجلات و مقالات حوزه پزشکی عمومی و پیکره عمومی مورد استفاده, پیکره روزنامه همشهری (نسخه دوم) می باشد. نتایج بدست آمده نشان می دهد که قابلیت استفاده از روش های بسامد شماری پیکره بنیاد در زبان فارسی برای دست یافتن به شیوه ای واحد در استخراج خودکار واژگان وجود دارد. شیوه آتی که به یقین می تواند گامی موثر در تهیه و تدوین متون آموزشی زبان فارسی و گسترش آموزش این زبان به شمار آید. از عمده ترین مشکلات استفاد از روش های ساده, جداسازی واژگان پرتکرار همچون حروف ربط را می توان برشمرد. از این رو جهت بالابردن توان مدل با اعمال روش هایی می توان روش های اولیه را بهبود بخشید. مشاهده می شود که روش بسامدشماری بهبود یافته در پیکره اختصاصی از سایر روش ها عملکرد بهتری داشته و تا 60 درصد واژگان تخصصی را در 50 واژه پر بسامد شناسایی می نماید. از سوی دیگر مشاهده می گردد که با افزایش دامنه واژگان مورد بررسی در پژوهش از 50 به 100, 150 و 200 دقت مدل ها افزایش یافته و درصد واژگان تخصصی انتخاب شده به ثبات می رسد.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    ذوالفقار، زهره، موسوی میانگاه، طیبه، روشن، بلقیس، و وکیلی فرد، امیررضا. (1399). بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی). پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات)، 35(4 (102 پیاپی) )، 1039-1064. SID. https://sid.ir/paper/392644/fa

    Vancouver: کپی

    ذوالفقار زهره، موسوی میانگاه طیبه، روشن بلقیس، وکیلی فرد امیررضا. بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی). پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات)[Internet]. 1399؛35(4 (102 پیاپی) ):1039-1064. Available from: https://sid.ir/paper/392644/fa

    IEEE: کپی

    زهره ذوالفقار، طیبه موسوی میانگاه، بلقیس روشن، و امیررضا وکیلی فرد، “بررسی تکنیک های بهبود عملکردروش های بسامدشماری پیکره بنیاد دراستخراج خودکار واژگان مورد مطالعه: (واژگان پایه علوم پزشکی)،” پردازش و مدیریت اطلاعات (علوم و فناوری اطلاعات)، vol. 35، no. 4 (102 پیاپی) ، pp. 1039–1064، 1399، [Online]. Available: https://sid.ir/paper/392644/fa

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button