مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

FarsTail اولین مجموعه‌داده‌ فارسی استنتاج زبان طبیعی

تاریخ: 1399/08/26

بازدید: 6474

زمان مطالعه: 5 دقیقه / لینک کوتاه:

کلیدواژگان: FarsTail | مجموعه داده زبان فارسی | استنتاج زبان طبیعی

استنتاج زبان طبیعی

استنتاج زبان طبیعی (Natural Language Inference) یکی از مهمترین وظایف مطرح شده در پردازش زبان طبیعی (Natural Language Processing) است. این مسئله آنقدر مهم است که آن را آزمونی برای رسیدن پردازش زبان طبیعی به هدف نهایی خود، یعنی درک کامل زبان طبیعی (Natural Language Understanding) توسط ماشین میدانند. در مسئله‌ی استنتاج زبان طبیعی دو عبارت مطرح می‌شود؛ عبارت اول، مقدم (Premise) و عبارت دوم، تالی (Hypothesis) نامیده می‌شود. در این مسئله، نوع ارتباط این دو عبارت در سه کلاس زیر دسته‌بندی می‌شود:
1) کلاس دلالت: با توجه به عبارت مقدم، عبارت تالی درست می‌باشد.
2) کلاس تضاد: با توجه به عبارت مقدم، عبارت تالی غلط می‌باشد.
3) کلاس خنثی: با توجه به عبارت مقدم، نمی‌توان درباره‌ی درست یا غلط بودن تالی نظر قطعی داد.
با توجه به مثال زیر، از جمله‌ی مقدم می‌توان نتیجه گرفت که تالی دلالت درست است و تالی تضاد نادرست است و نمی‌توان نتیجه گرفت که آیا تالی خنثی درست است یا خیر.

FarsTail: اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

آیا انتشار مقاله در مجلات داخلی اهمیت دارد؟

در سال‌های اخیر مدل‌های بسیاری توسط پژوهشگران برای حل مسأله‌ی استنتاج زبان طبیعی ارائه شده است. این مدل‌ها که اکثراً بر پایه‌ی یادگیری عمیق هستند، برای آموزش نیازمند داده‌های برچسب‌دار می‌باشند. به همین منظور در زبان های مختلف دنیا مجموعه داده‌هایی مختص مسئله‌ی استنتاج زبان طبیعی جمع‌آوری و منتشر شده است. از جمله این مجموعه داده‌ها می‌توان به «SNLI»، «MultiNLI» و «SciTail» در زبان انگلیسی، «Evalita» در زبان ایتالیایی، «ArbTEDS» در زبان عربی و «ASSIN» در زبان پرتغالی اشاره کرد. اما چنین مجموعه داده‌هایی را در زبان فارسی که یک زبان کم منبع است، نمی‌توان یافت.

رله میلون

FarsTail چیست

مجموعه داده‌ی FarsTail، اولین مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی «استنتاج زبان طبیعی» می‌باشد. این مجموعه داده در طول 22 ماه توسط یک تیم تخصصی پردازش زبان طبیعی در آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم جمع‌آوری شده است.

در روند جمع‌آوری مجموعه داده‌ی FarsTail روشی نوین شبیه به سناریوی استفاده شده در SciTail برای تولید یک مجموعه داده‌ی استاندارد طراحی و به کار گرفته شده است.مراحل توسعه‌ی مجموعه داده‌ی FarsTail در شکل زیر نشان داده شده است.

FarsTail اولین مجموعه داده ی فارسی استنتاج زبان طبیعی

مجموعه داده‌ی FarsTail بر اساس توزیع ارائه شده در جدول زیر به سه بخش مجموعه‌ی آموزشی (70%)، مجموعه‌ی اعتبارسنجی (15%) و مجموعه‌ی آزمایشی (15%) تقسیم شده است.

مجموعه داده زبان فارسی

برای دریافت آخرین‌های بلاگ و بن تخفیف در خبرنامه عضو شوید.

کارگاه آموزشی متن کاوی با پایتون

آزمایش‌ها

برای محاسبه‌ی بازنمایی جملات ورودی روش های مختلفی از جمله TF-IDF، word2vec، fastText، ELMo، BERT با استفاده از طبقه‌بندهای SVM، LSTM و GRU به کار گرفته شده‌اند. همچنین نتایج مدل‌های DecompAtt، ESIM، HBMP و ULMFiT بر روی مجموعه داده‌ی FarsTail نشان داده شده است. علاوه بر این، رویکرد انتقال بین زبانی (Cross-lingual transfer) نیز بر روی این مجموعه داده آزمایش شده است که از دو روش پایه‌ی Translate-Source و Translate-Target استفاده شده است. خلاصه‌ای از بهترین نتایج آزمایش‌ها در جداول زیر آمده است:

FarsTail

دانلود داده برای کارهای غیرتجاری:

https://github.com/dml-qom/FarsTail

مقاله در arXiv:

Hossein Amirkhani, Mohammad Azari Jafari, Azadeh Amirak, Zohreh Pourjafari, Soroush Faridan Jahromi, and Zeinab Kouhkan. 2020. FarsTail: A Persian Natural Language Inference Dataset. arXiv preprint arXiv:2009.08820.

لینک در paperswithcode:

https://paperswithcode.com/sota/natural-language-inference-on-farstail

لینک کوتاه

بازگشت به بالا

پست های مرتبط

صدا بیزاری یا میسوفونیا چیست ؟

تاریخ: 1402/12/21

بازدید: 1371

زمان مطالعه: 2 دقیقه

برخی از افراد نسبت به صداهای خاص یا سطوح که برای بقیه صداهای عادی محسوب می شود، واکنش هایی مثل آزردگی، تنش، اضطراب یا ترس را تجربه می کنند.

ادامه مطلب

انتشار کتاب پارک‌های علم و فناوری ایران

تاریخ: 1401/05/04

بازدید: 1618

زمان مطالعه: 2 دقیقه

پارک‌های علم و فناوری با مدیریت کارای چرخه ایده تا بازار موجبات تحقق تجاری‌سازی ایده‌های نوآورانه، خلق و رشد شرکت‌های دانش بنیان و به هم‌رسانی پژوهش، صنعت و بازار را که از عوامل مهم تحقق اقتصاد دانش‌بنیان هستند را فراهم می‌نمایند.

ادامه مطلب

دلزدگی زناشویی چیست ؟

تاریخ: 1400/10/21

بازدید: 7131

زمان مطالعه: 5 دقیقه دقیقه

دلزدگی زناشویی یا حالت دردناکی از فرسودگی عاطفی و روانی است . دلزدگی ، زوجینی را که توقع دارند عشق و ازدواج به زندگی شان معنا ببخشد را متاثر می کند .

ادامه مطلب

امیدواری شغلی چیست ؟

تاریخ: 1400/12/17

بازدید: 2998

زمان مطالعه: 5 دقیقه دقیقه

امید یک منبع قوی در تعیین رفتار است . امید منجر به نگرش افراد برای رسیدن به اهداف است . امید شامل فرایندهای شناختی است که منجر به حالت انگیزشی و در نتیجه بر ساختارهای آموزشی و همچنین شغل اثر می گذارد .

ادامه مطلب