مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

بزرگ ترین مجموعه داده تحلیل احساس فارسی


مجموعه داده تجزیه و تحلیل احساس چیست ؟

داده ها در عصر امروز همانند طلا با ارزش هستند. داده ها به ویژه داده های به شکل متنی، می توانند به صورت خاصی شناسایی و برچسب گذاری شده و برای انتشار به شکل مجموعه داده تهیه شوند. ساده ترین شکل تحلیل داده بر اساس داده های متنی است. داده های متنی گنجینه بزرگی برای هر پلتفرمی محسوب می شوند.

 

مجموعه داده تجزیه و تحلیل احساس چیست؟

مجموعه داده تجزیه و تحلیل احساس یا sentiment analysis dataset ، به مجموعه داده ای گفته می شود که می تواند برای یادگیری مدل های تحلیل احساس به کار رود. تحلیل احساس یک ابزار برای طبقه بندی متن است که برای تعیین اینکه پیام حاوی چه احساسی است. طبقه بندی پیام ها در مجموعه داده تحلیل احساس به سه دسته ی مثبت، منفی و خنثی تقسیم می شود.

تجزیه و تحلیل احساس می تواند برای انواع داده ها شامل شبکه های اجتماعی ، کامنت ها، ایمیل ها، رونوشت ها و نظرات چت های پشتیبانی از مشتری به کار رود. تحلیل احساس می تواند به شرکت ها برای درک اینکه استفاده کنندگان از سرویس شان چه احساسی دارند به کار رود.

LDPSA  چیست ؟

علاوه بر رسم الخط فارسی که یکی از مشکلات و چالش های داده کاوی است از دیگر، مشکلات داده کاوی و تحلیل احساس در زبان فارسی، کمبود مجموعه داده به این زبان است. خوشبختانه ، اخیرا تلاش های زیادی برای حل این چالش انجام شده است . یکی از این تلاش ها، انتشار بزرگ ترین مجموعه تحلیل احساس فارسی با نام LDPSA است.

بزرگ ترین مجموعه داده تحلیل احساس فارسی است که بر اساس داده های فیدیبو ساخته شده است. بزرگ ترین مجموعه داده تحلیل احساس فارسی، شامل تهیه داده، برچسب گذاری و توسعه مجموعه گسترده ای از نظرات کاربران فیدیبو در مورد محتوای آموزشی و کتاب های الکترونیک است. فیدیبو علاوه بر کتاب الکترونیک و محتوای آموزشی در وب سایت خود، کتاب های صوتی و مجلات را هم دارد ، اما در این مجموعه داده فقط محتوای آموزشی و کتاب های الکترونیک خود را منتشر کرده است.

فیدیبو ، یک فروشگاه قانونی کتاب الکترونیک فارسی است. شروع کار فیدیبو از اسفند 1392 است. فیدیبو سامانه ای برای تولید و پخش کتاب الکترونیک است که قوانین کپی رایت ایران را رعایت می‌کند.

بزرگ ترین مجموعه داده تحلیل احساس فارسی، به تجزیه و تحلیل احساسات و عقاید به ویژه در حوزه ی محتوای آموزشی می پردازد. یکی از چالش های زبان فارسی در محدودیت آنها نسبت به نظرات کاربران در مورد خدمات و محصولات موجود پایگاه های آنلاین است. بزرگ ترین مجموعه داده تحلیل احساس فارسی که به انگلیسی A Large Dataset of Persian Sentiment Analysis نام دارد و مخفف آن LDPSA  است مزایای زیادی نسبت به مجموعه داده های قابل مقایسه در زبان فارسی دارد.

مقاله ای بر اساس این دیتاست منتشر شده با همکاری پنج نویسنده در دهمین همایش وب پژوهی منتشر شده که نویسندگان آن چنین ذکر کرده اند : بزرگ ترین مجموعه داده تحلیل احساس فارسی ، شامل 253386 کامنت، در 5 کلاس است. بزرگ ترین مجموعه داده تحلیل احساس فارسی ، مجموعه گسترده ای از داده های فارسی برای بررسی دقیق محتوای آموزشی و کتاب های الکترونیک است.

در ادامه نویسندگان مقاله گفته اند که : بینش های قابل توجهی از تجزیه و تحلیل داده ها به دست آمد. برای مثال ، کووید 19، باعث شد تا ایرانیان زمان بیشتری را به مطالعه و تعامل با بسترهای آموزشی صرف کنند. نزدیک به هشتاد درصد از کاربران نظر مثبت خود را در خصوص استفاده ی فیدیبو اعلام کرده اند. تمایل استفاده ی کاربران ایرانی از کتاب های صوتی افزایش داشته است. به دلیل اینکه این مقاله به صورت دسترسی آزاد نبود امکان ارائه ی اطلاعات بیشتری از این مقاله نیست.

برای دریافت بزرگترین مجموعه داده تحلیل احساس فارسی به آدرس https://mega.nz/file/8eJW0CRK#cpWD5gcTLX1jSKOd00q7SG47jB-1_YvhrIGowfILfTM مراجعه کنید. برای دانلود داده نیاز به نام نویسی در سایت نیست.

گفتنی است اخیرا مجموعه با سلام نیز اقدام به انتشار مجموعه داده ی خود کرده است. امید است با انتشار این داده های فارسی، قدم های مثبت و بزرگی برای تجزیه و تحلیل داده صورت بگیرد .

منبع:

Nazarizadeh, Ali, et al. "LDPSA: A Large Dataset of Persian Sentiment Analysis." 2024 10th International Conference on Web Research (ICWR). IEEE, 2024.

 

لینک کوتاه

لینک کوتاه

بازگشت به بالا

پست های مرتبط

مهم ترین دلایل ریترکت مقالات

تاریخ: 1403/06/17

بازدید: 347

1403

زمان مطالعه: 2 دقیقه

مهم ترین دلایل ریترکت مقالات حوزه موضوعی علوم کامپیوتر در سال های 2014 تا 2023

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

مجموعه داده با سلام

تاریخ: 1403/02/22

بازدید: 343

1403

زمان مطالعه: 1 دقیقه

مجموعه داده یا دیتاست Data set چیست ؟

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

مساله ستاره‌ها و حائل‌ها

تاریخ: 1399/12/16

بازدید: 2535

1399

زمان مطالعه: 5 دقیقه دقیقه

combinatorics Stars and bars

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

پایگاه داده رایگان برای جستجو و آنالیز پروانه‌های ثبت اختراع و مقالات : قسمت اول

تاریخ: 1401/07/27

بازدید: 1755

1401

زمان مطالعه: 3 دقیقه

دسترسی آزاد به مدارک علمی در سال‌های اخیر توجه زیادی را به خود جلب کرده است.

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

نرمال‌سازی داده چیست و چگونه انجام می‌شود

تاریخ: 1401/11/10

بازدید: 9649

1401

زمان مطالعه: 3 دقیقه

نرمال‌سازی یا استانداردسازی، یکی از راه‌ها برای مقایسه پذیر کردن داده‌ها است

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

چگونه 10 مهره را در سه ظرف به صورت فرد تقسیم کنیم

تاریخ: 1400/03/22

بازدید: 3056

1400

زمان مطالعه: 5 دقیقه دقیقه

استعداد تحصیلی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

مصورسازی هم آیندی کلیدواژگان

تاریخ: 1400/02/31

بازدید: 2575

1400

زمان مطالعه: 5 دقیقه دقیقه

کشف دانش از طریق تجزیه و تحلیل هم رخدادی واژگان

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

telegram sharing button
whatsapp sharing button
linkedin sharing button
twitter sharing button
email sharing button
email sharing button
email sharing button
sharethis sharing button