داده ها در عصر امروز همانند طلا با ارزش هستند. داده ها به ویژه داده های به شکل متنی، می توانند به صورت خاصی شناسایی و برچسب گذاری شده و برای انتشار به شکل مجموعه داده تهیه شوند. ساده ترین شکل تحلیل داده بر اساس داده های متنی است. داده های متنی گنجینه بزرگی برای هر پلتفرمی محسوب می شوند.
مجموعه داده تجزیه و تحلیل احساس چیست؟
مجموعه داده تجزیه و تحلیل احساس یا sentiment analysis dataset ، به مجموعه داده ای گفته می شود که می تواند برای یادگیری مدل های تحلیل احساس به کار رود. تحلیل احساس یک ابزار برای طبقه بندی متن است که برای تعیین اینکه پیام حاوی چه احساسی است. طبقه بندی پیام ها در مجموعه داده تحلیل احساس به سه دسته ی مثبت، منفی و خنثی تقسیم می شود.
تجزیه و تحلیل احساس می تواند برای انواع داده ها شامل شبکه های اجتماعی ، کامنت ها، ایمیل ها، رونوشت ها و نظرات چت های پشتیبانی از مشتری به کار رود. تحلیل احساس می تواند به شرکت ها برای درک اینکه استفاده کنندگان از سرویس شان چه احساسی دارند به کار رود.
LDPSA چیست ؟
علاوه بر رسم الخط فارسی که یکی از مشکلات و چالش های داده کاوی است از دیگر، مشکلات داده کاوی و تحلیل احساس در زبان فارسی، کمبود مجموعه داده به این زبان است. خوشبختانه ، اخیرا تلاش های زیادی برای حل این چالش انجام شده است . یکی از این تلاش ها، انتشار بزرگ ترین مجموعه تحلیل احساس فارسی با نام LDPSA است.
بزرگ ترین مجموعه داده تحلیل احساس فارسی است که بر اساس داده های فیدیبو ساخته شده است. بزرگ ترین مجموعه داده تحلیل احساس فارسی، شامل تهیه داده، برچسب گذاری و توسعه مجموعه گسترده ای از نظرات کاربران فیدیبو در مورد محتوای آموزشی و کتاب های الکترونیک است. فیدیبو علاوه بر کتاب الکترونیک و محتوای آموزشی در وب سایت خود، کتاب های صوتی و مجلات را هم دارد ، اما در این مجموعه داده فقط محتوای آموزشی و کتاب های الکترونیک خود را منتشر کرده است.
فیدیبو ، یک فروشگاه قانونی کتاب الکترونیک فارسی است. شروع کار فیدیبو از اسفند 1392 است. فیدیبو سامانه ای برای تولید و پخش کتاب الکترونیک است که قوانین کپی رایت ایران را رعایت میکند.
بزرگ ترین مجموعه داده تحلیل احساس فارسی، به تجزیه و تحلیل احساسات و عقاید به ویژه در حوزه ی محتوای آموزشی می پردازد. یکی از چالش های زبان فارسی در محدودیت آنها نسبت به نظرات کاربران در مورد خدمات و محصولات موجود پایگاه های آنلاین است. بزرگ ترین مجموعه داده تحلیل احساس فارسی که به انگلیسی A Large Dataset of Persian Sentiment Analysis نام دارد و مخفف آن LDPSA است مزایای زیادی نسبت به مجموعه داده های قابل مقایسه در زبان فارسی دارد.
مقاله ای بر اساس این دیتاست منتشر شده با همکاری پنج نویسنده در دهمین همایش وب پژوهی منتشر شده که نویسندگان آن چنین ذکر کرده اند : بزرگ ترین مجموعه داده تحلیل احساس فارسی ، شامل 253386 کامنت، در 5 کلاس است. بزرگ ترین مجموعه داده تحلیل احساس فارسی ، مجموعه گسترده ای از داده های فارسی برای بررسی دقیق محتوای آموزشی و کتاب های الکترونیک است.
در ادامه نویسندگان مقاله گفته اند که : بینش های قابل توجهی از تجزیه و تحلیل داده ها به دست آمد. برای مثال ، کووید 19، باعث شد تا ایرانیان زمان بیشتری را به مطالعه و تعامل با بسترهای آموزشی صرف کنند. نزدیک به هشتاد درصد از کاربران نظر مثبت خود را در خصوص استفاده ی فیدیبو اعلام کرده اند. تمایل استفاده ی کاربران ایرانی از کتاب های صوتی افزایش داشته است. به دلیل اینکه این مقاله به صورت دسترسی آزاد نبود امکان ارائه ی اطلاعات بیشتری از این مقاله نیست.
برای دریافت بزرگترین مجموعه داده تحلیل احساس فارسی به آدرس https://mega.nz/file/8eJW0CRK#cpWD5gcTLX1jSKOd00q7SG47jB-1_YvhrIGowfILfTM مراجعه کنید. برای دانلود داده نیاز به نام نویسی در سایت نیست.
گفتنی است اخیرا مجموعه با سلام نیز اقدام به انتشار مجموعه داده ی خود کرده است. امید است با انتشار این داده های فارسی، قدم های مثبت و بزرگی برای تجزیه و تحلیل داده صورت بگیرد .
منبع:
Nazarizadeh, Ali, et al. "LDPSA: A Large Dataset of Persian Sentiment Analysis." 2024 10th International Conference on Web Research (ICWR). IEEE, 2024.