مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

619
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

673
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

یک روش توزیع شده برای استخراج چندتایی های فارسی-انگلیسی

صفحات

 صفحه شروع 42 | صفحه پایان 48

چکیده

 این پژوهش در حوزه ترجمه ماشینی و در رابطه با استخراج چندتایی ها از پیکره های دوزبانه به وسیله اسپارک است. در این رابطه, مهم ترین چالش این است که عملیات بایستی بر روی پیکره های متنی بزرگ انجام شود لذا بایستی به صورت توزیع شده و با بهره گیری از راهکارها و ابزارهای تحلیل داده های حجیم, طراحی و پیاده سازی شود. در واقع هنگام ترجمه متون, به وفور با چندتایی هایی مواجه می شویم که بایستی چندتایی های متناظر با هر کدام را بیابیم و در ترجمه مان درج کنیم, این کار می تواند از طریق جستجو در پیکره هایی که شامل چندتایی ها و ترجمه متناظر با آنها است انجام شود. روش های موجود, این کار را به صورت غیر توزیع شده انجام می دهند, لذا ضمن این که نیاز به زمان زیادی دارند, نمی توانند از پیکره های خیلی بزرگ بهره ببرند. برای رفع این نارسایی, در این پژوهش یک روش توزیع شده ارائه گردیده که فاصله بین بخش های چندتایی ها را نیز لحاظ می کند. راه حل پیشنهادی به صورت توزیع شده, تمام چندتایی های ممکن را از جملات پیکره تک زبانه استخراج نموده و با استفاده از ضریب همبستگی, چندتایی های معتبر جداشده را با استفاده از پیکره دوزبانه ترجمه می کند. روش پیشنهادی روی یک کلاستر محاسباتی با 64 گیگابایت حافظه اصلی و پردازنده 24هسته ای, در محیط اسپارک پیاده سازی گردید. داده های آزمایش شامل پیکره های فارسی و انگلیسی تک زبانه و نیز پیکره دوزبانه, حاوی به طور متوسط 100 هزار جمله بودند. نتایج آزمایشی نشان می دهند که بدین طریق, زمان اجرا به شدت کاهش و کیفیت ترجمه نیز به طور قابل ملاحظه ای بهبود می یابد.

استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    APA: کپی

    میرمبین، سیده سارا، قاسم زاده، محمد، و نظارات، امین. (1399). یک روش توزیع شده برای استخراج چندتایی های فارسی-انگلیسی. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر، 18(1 )، 42-48. SID. https://sid.ir/paper/228425/fa

    Vancouver: کپی

    میرمبین سیده سارا، قاسم زاده محمد، نظارات امین. یک روش توزیع شده برای استخراج چندتایی های فارسی-انگلیسی. مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر[Internet]. 1399؛18(1 ):42-48. Available from: https://sid.ir/paper/228425/fa

    IEEE: کپی

    سیده سارا میرمبین، محمد قاسم زاده، و امین نظارات، “یک روش توزیع شده برای استخراج چندتایی های فارسی-انگلیسی،” مهندسی برق و مهندسی کامپیوتر ایران - ب مهندسی کامپیوتر، vol. 18، no. 1 ، pp. 42–48، 1399، [Online]. Available: https://sid.ir/paper/228425/fa

    مقالات مرتبط نشریه ای

    مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button