بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

FarsTail اولین مجموعه‌داده‌ فارسی استنتاج زبان طبیعی


استنتاج زبان طبیعی


استنتاج زبان طبیعی (Natural Language Inference) یکی از مهمترین وظایف مطرح شده در پردازش زبان طبیعی (Natural Language Processing) است. این مسئله آنقدر مهم است که آن را آزمونی برای رسیدن پردازش زبان طبیعی به هدف نهایی خود، یعنی درک کامل زبان طبیعی (Natural Language Understanding) توسط ماشین میدانند. در مسئله‌ی استنتاج زبان طبیعی دو عبارت مطرح می‌شود؛ عبارت اول، مقدم (Premise) و عبارت دوم، تالی (Hypothesis) نامیده می‌شود. در این مسئله، نوع ارتباط این دو عبارت در سه کلاس زیر دسته‌بندی می‌شود:
1) کلاس دلالت: با توجه به عبارت مقدم، عبارت تالی درست می‌باشد.
2) کلاس تضاد: با توجه به عبارت مقدم، عبارت تالی غلط می‌باشد.
3) کلاس خنثی: با توجه به عبارت مقدم، نمی‌توان درباره‌ی درست یا غلط بودن تالی نظر قطعی داد.
با توجه به مثال زیر، از جمله‌ی مقدم می‌توان نتیجه گرفت که تالی دلالت درست است و تالی تضاد نادرست است و نمی‌توان نتیجه گرفت که آیا تالی خنثی درست است یا خیر.

FarsTail: اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

آیا انتشار مقاله در مجلات داخلی اهمیت دارد؟

در سال‌های اخیر مدل‌های بسیاری توسط پژوهشگران برای حل مسأله‌ی استنتاج زبان طبیعی ارائه شده است. این مدل‌ها که اکثراً بر پایه‌ی یادگیری عمیق هستند، برای آموزش نیازمند داده‌های برچسب‌دار می‌باشند. به همین منظور در زبان های مختلف دنیا مجموعه داده‌هایی مختص مسئله‌ی استنتاج زبان طبیعی جمع‌آوری و منتشر شده است. از جمله این مجموعه داده‌ها می‌توان به «SNLI»، «MultiNLI» و «SciTail» در زبان انگلیسی، «Evalita» در زبان ایتالیایی، «ArbTEDS» در زبان عربی و «ASSIN» در زبان پرتغالی اشاره کرد. اما چنین مجموعه داده‌هایی را در زبان فارسی که یک زبان کم منبع است، نمی‌توان یافت.

رله میلون

FarsTail چیست

مجموعه داده‌ی FarsTail، اولین مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی «استنتاج زبان طبیعی» می‌باشد. این مجموعه داده در طول 22 ماه توسط یک تیم تخصصی پردازش زبان طبیعی در آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم جمع‌آوری شده است.

در روند جمع‌آوری مجموعه داده‌ی FarsTail روشی نوین شبیه به سناریوی استفاده شده در SciTail برای تولید یک مجموعه داده‌ی استاندارد طراحی و به کار گرفته شده است.مراحل توسعه‌ی مجموعه داده‌ی FarsTail در شکل زیر نشان داده شده است.

FarsTail اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

مجموعه داده‌ی FarsTail بر اساس توزیع ارائه شده در جدول زیر به سه بخش مجموعه‌ی آموزشی (70%)، مجموعه‌ی اعتبارسنجی (15%) و مجموعه‌ی آزمایشی (15%) تقسیم شده است.

مجموعه داده زبان فارسی

برای دریافت آخرین‌های بلاگ و بن تخفیف در خبرنامه عضو شوید.

کارگاه آموزشی متن کاوی با پایتون

کارگاه آموزشی متن کاوی با پایتون

آزمایش‌ها

برای محاسبه‌ی بازنمایی جملات ورودی روش های مختلفی از جمله TF-IDF، word2vec، fastText، ELMo، BERT با استفاده از طبقه‌بندهای SVM، LSTM و GRU به کار گرفته شده‌اند. همچنین نتایج مدل‌های DecompAtt، ESIM، HBMP و ULMFiT بر روی مجموعه داده‌ی FarsTail نشان داده شده است. علاوه بر این، رویکرد انتقال بین زبانی (Cross-lingual transfer) نیز بر روی این مجموعه داده آزمایش شده است که از دو روش پایه‌ی Translate-Source و Translate-Target استفاده شده است. خلاصه‌ای از بهترین نتایج آزمایش‌ها در جداول زیر آمده است:

FarsTail

دانلود داده برای کارهای غیرتجاری:

https://github.com/dml-qom/FarsTail

 

مقاله در arXiv:

Hossein Amirkhani, Mohammad Azari Jafari, Azadeh Amirak, Zohreh Pourjafari, Soroush Faridan Jahromi, and Zeinab Kouhkan. 2020. FarsTail: A Persian Natural Language Inference Dataset. arXiv preprint arXiv:2009.08820.

 

لینک در paperswithcode:

https://paperswithcode.com/sota/natural-language-inference-on-farstail

 

 

لینک کوتاه

لینک کوتاه

بازگشت به بالا

پست های مرتبط

انتشار کتاب "پژوهش و فناوری در برنامه‌های توسعه کشور"

تاریخ: 1399/06/19

بازدید: 3104

1399

زمان مطالعه: 5 دقیقه دقیقه

کتاب "پژوهش و فناوری در برنامه‌های توسعه کشور" نوشته فریبا فهیم‌یحیائی، معاون هزینه‌ای امور تحقیقات و فناوری سازمان برنامه و بودجه، منتشر شده است.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بازخوانی مقاله علل كاهش سطح آب درياچه اروميه

تاریخ: 1397/12/15

بازدید: 3508

1397

زمان مطالعه: 5 دقیقه دقیقه

بازخوانی مقاله علمی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بازخوانی مقاله اهداف، اصول و روشهای تربیت اخلاقی از دیدگاه خواجه نصیرالدین طوسی

تاریخ: 1397/12/05

بازدید: 1696

1397

زمان مطالعه: 5 دقیقه دقیقه

مناسبت ملی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

معایب و مزایای دورکاری

تاریخ: 1401/01/21

بازدید: 2096

1401

زمان مطالعه: 5 دقیقه دقیقه

دورکاری عبارت است از انجام کار از راه دور . مفهوم دورکاری به انعطاف پذیری در کار اشاره دارد . دورکاری یعنی کارمند وظایف و مسئولیت های خود را خارج از محل کار انجام دهد .

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

انتشار کتاب پارک‌های علم و فناوری ایران

تاریخ: 1401/05/04

بازدید: 1550

1401

زمان مطالعه: 2 دقیقه

پارک‌های علم و فناوری با مدیریت کارای چرخه ایده تا بازار موجبات تحقق تجاری‌سازی ایده‌های نوآورانه، خلق و رشد شرکت‌های دانش بنیان و به هم‌رسانی پژوهش، صنعت و بازار را که از عوامل مهم تحقق اقتصاد دانش‌بنیان هستند را فراهم می‌نمایند.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

چرا ترویج علم در جامعه مهم است؟

تاریخ: 1397/11/16

بازدید: 2858

1397

زمان مطالعه: 5 دقیقه دقیقه

گزارش علمی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

آیا انتشار مقاله در مجلات داخلی اهمیت دارد

تاریخ: 1399/08/20

بازدید: 5054

1399

زمان مطالعه: 5 دقیقه دقیقه

بررسی موردی متن کاوی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

مرور جامع و نظام‌مند ابزارهای سنجش سواد سلامت

تاریخ: 1401/05/31

بازدید: 2288

1401

زمان مطالعه: 3 دقیقه

جامع‌ترین مطالعه انجام شده در عرصه بین‌المللی در خصوص ابزارهای سنجش سواد سلامت

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

دلزدگی زناشویی چیست ؟

تاریخ: 1400/10/21

بازدید: 6794

1400

زمان مطالعه: 5 دقیقه دقیقه

دلزدگی زناشویی یا حالت دردناکی از فرسودگی عاطفی و روانی است . دلزدگی ، زوجینی را که توقع دارند عشق و ازدواج به زندگی شان معنا ببخشد را متاثر می کند .

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بازخوانی مقاله نقش عوامل قانونی و تشكیلاتی، مدیریت منابع و گروههای اجتماعی در تخریب منابع طبیعی تجدید پذیر

تاریخ: 1397/12/15

بازدید: 2352

1397

زمان مطالعه: 5 دقیقه دقیقه

بازخوانی مقاله علمی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins