مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

video

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

sound

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

نسخه انگلیسی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید:

92
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

دانلود:

8
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

استناد:

اطلاعات مقاله نشریه

عنوان

کاربست انواع جانمایی کلمات پیش آموزش داده شده در مدل های یادگیری عمیق برای تولید عنوان از متون فارسی

صفحات

 صفحه شروع 30 | صفحه پایان 38

چکیده

 با پیدایش روش های یادگیری عمیق, مدل های دنباله به دنباله با هدف ترجمه ماشینی یک جمله مبدأ به یک جمله مقصد ارائه شدند و از همین ایده برای ترجمه یا تبدیل یک متن به شکل خلاصه شده آن استفاده گردیده است. خلاصه هایی که به این روش تولید می شوند از نظر ساختاری خواناتر بوده و معمولاً معنای کاملی را به خواننده منتقل می کنند. در چنین ساختارهایی برای بازنمایی معنایی واژه ها از بردارهای جانمایی کلمات استفاده می شود که در آن, وزن هر کلمه با توجه به کلمات مجاور آن از یک پیکره بزرگ آموزش داده می شود. در حالت کلی وزن این بردارها با انتخاب یک پنجره مجاورت برای هر کلمه به دست می آید؛ اما در مدل های زبانی بافتاری مانند برت برای محاسبه وزن این کلمات از مبدل های چندلایه استفاده می شود که به تمامی کلمات موجود در متن توجه می کنند. تاکنون مقالات متعددی نشان داده اند که مدل های زبانی بافتاری به دلیل قابلیت ریزتنظیم وزن ها برای انجام یک وظیفه پردازش زبان طبیعی خاص, موفق تر از سایر روش های جانمایی کلمات عمل می کنند؛ اما بررسی عملکرد وزن اولیه این مدل ها برای کاربست در تولید عنوان در زبان فارسی مورد توجه قرار نگرفته است. در این مقاله به بررسی رفتار جانمایی کلمات به صورت پیش آموزش داده شده و بدون ریزتنظیم آنها در تولید عنوان از متون فارسی می پردازیم. برای یادگیری مدل از «علم نت» که یک پیکره فارسی شامل حدود 350 هزار جفت چکیده و عنوان مقالات علمی می باشد, استفاده شده است. نتایج نشان می دهند استفاده از مدل برت حتی بدون ریزتنظیم وزن های آن در بهبود کیفیت عناوین فارسی تولیدشده تأثیرگذار بوده و معیار 1-ROUGE را در فارسی به 42% می رساند که بهتر از سایر مدل های جانمایی است.

چندرسانه ای

  • ثبت نشده است.
  • استنادها

  • ثبت نشده است.
  • ارجاعات

  • ثبت نشده است.
  • استناددهی

    مقالات مرتبط نشریه ای

  • ثبت نشده است.
  • مقالات مرتبط همایشی

  • ثبت نشده است.
  • طرح های مرتبط

  • ثبت نشده است.
  • کارگاه های پیشنهادی






    بازگشت به بالا
    telegram sharing button
    whatsapp sharing button
    linkedin sharing button
    twitter sharing button
    email sharing button
    email sharing button
    email sharing button
    sharethis sharing button