استنتاج زبان طبیعی
استنتاج زبان طبیعی (Natural Language Inference) یکی از مهمترین وظایف مطرح شده در پردازش زبان طبیعی (Natural Language Processing) است. این مسئله آنقدر مهم است که آن را آزمونی برای رسیدن پردازش زبان طبیعی به هدف نهایی خود، یعنی درک کامل زبان طبیعی (Natural Language Understanding) توسط ماشین میدانند. در مسئلهی استنتاج زبان طبیعی دو عبارت مطرح میشود؛ عبارت اول، مقدم (Premise) و عبارت دوم، تالی (Hypothesis) نامیده میشود. در این مسئله، نوع ارتباط این دو عبارت در سه کلاس زیر دستهبندی میشود:
1) کلاس دلالت: با توجه به عبارت مقدم، عبارت تالی درست میباشد.
2) کلاس تضاد: با توجه به عبارت مقدم، عبارت تالی غلط میباشد.
3) کلاس خنثی: با توجه به عبارت مقدم، نمیتوان دربارهی درست یا غلط بودن تالی نظر قطعی داد.
با توجه به مثال زیر، از جملهی مقدم میتوان نتیجه گرفت که تالی دلالت درست است و تالی تضاد نادرست است و نمیتوان نتیجه گرفت که آیا تالی خنثی درست است یا خیر.
آیا انتشار مقاله در مجلات داخلی اهمیت دارد؟
در سالهای اخیر مدلهای بسیاری توسط پژوهشگران برای حل مسألهی استنتاج زبان طبیعی ارائه شده است. این مدلها که اکثراً بر پایهی یادگیری عمیق هستند، برای آموزش نیازمند دادههای برچسبدار میباشند. به همین منظور در زبان های مختلف دنیا مجموعه دادههایی مختص مسئلهی استنتاج زبان طبیعی جمعآوری و منتشر شده است. از جمله این مجموعه دادهها میتوان به «SNLI»، «MultiNLI» و «SciTail» در زبان انگلیسی، «Evalita» در زبان ایتالیایی، «ArbTEDS» در زبان عربی و «ASSIN» در زبان پرتغالی اشاره کرد. اما چنین مجموعه دادههایی را در زبان فارسی که یک زبان کم منبع است، نمیتوان یافت.
رله میلون
FarsTail چیست
مجموعه دادهی FarsTail، اولین مجموعه دادهی فارسی جمع آوری شده برای مسئلهی «استنتاج زبان طبیعی» میباشد. این مجموعه داده در طول 22 ماه توسط یک تیم تخصصی پردازش زبان طبیعی در آزمایشگاه دادهکاوی و یادگیری ماشین دانشگاه قم جمعآوری شده است.
در روند جمعآوری مجموعه دادهی FarsTail روشی نوین شبیه به سناریوی استفاده شده در SciTail برای تولید یک مجموعه دادهی استاندارد طراحی و به کار گرفته شده است.مراحل توسعهی مجموعه دادهی FarsTail در شکل زیر نشان داده شده است.
مجموعه دادهی FarsTail بر اساس توزیع ارائه شده در جدول زیر به سه بخش مجموعهی آموزشی (70%)، مجموعهی اعتبارسنجی (15%) و مجموعهی آزمایشی (15%) تقسیم شده است.
برای دریافت آخرینهای بلاگ و بن تخفیف در خبرنامه عضو شوید.
کارگاه آموزشی متن کاوی با پایتون
آزمایشها
برای محاسبهی بازنمایی جملات ورودی روش های مختلفی از جمله TF-IDF، word2vec، fastText، ELMo، BERT با استفاده از طبقهبندهای SVM، LSTM و GRU به کار گرفته شدهاند. همچنین نتایج مدلهای DecompAtt، ESIM، HBMP و ULMFiT بر روی مجموعه دادهی FarsTail نشان داده شده است. علاوه بر این، رویکرد انتقال بین زبانی (Cross-lingual transfer) نیز بر روی این مجموعه داده آزمایش شده است که از دو روش پایهی Translate-Source و Translate-Target استفاده شده است. خلاصهای از بهترین نتایج آزمایشها در جداول زیر آمده است:
دانلود داده برای کارهای غیرتجاری:
https://github.com/dml-qom/FarsTail
مقاله در arXiv:
Hossein Amirkhani, Mohammad Azari Jafari, Azadeh Amirak, Zohreh Pourjafari, Soroush Faridan Jahromi, and Zeinab Kouhkan. 2020. FarsTail: A Persian Natural Language Inference Dataset. arXiv preprint arXiv:2009.08820.
لینک در paperswithcode:
https://paperswithcode.com/sota/natural-language-inference-on-farstail