مجموعه داده چیست ؟
مجموعه داده یا دیتاست[1] به فایل هایی گفته می شود که دربردارنده بیش از یک یا چند رکورد هستند . در مورد جداول ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که هر ستون نشان دهنده مقدار خاصی است و هر ردیف مربوط به یک رکورد مجموعه داده است . مجموعه داده ، تعدادی از اعداد یا مقادیری است که به موضوع خاصی مربوط است . برای مثال نمرات امتحانات دانش آموزان در یک کلاس ، یک مجموعه داده است ، یا تعداد ماهی هایی که توسط کوسه در دریا خورده می شوند ، یک مجموعه داده است .
در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم . مخزن UCI ، پایگاهی است که مجموعه داده به زبان انگلیسی را به طور رایگان در اختیار محققان قرار می دهد .
UCI چیست ؟
UCI ، مخزنی برای یادگیری ماشین ، مجموعه ای از پایگاه های داده ، تئوری های دامنه و تولید کننده داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتم های یادگیری ماشین به کار می رود . مخزن UCI در سال 1987 توسط دیوید آها و همکارانش ساخته شد . از آن زمان به بعد مخزن UCI به مخزنی برای همه دانشجویان ، محققان و همه کسانی شد که نیاز به داده های مربوط به یادگیری ماشین دارند . داده های موجود در مخزن UCI بیش از هزار بار توسط مقالات مختلف مورد استناد قرار گرفته اند . البته یکی از مقالاتی که از داده های مخزن UCI استفاده کرده جز صد مقاله برتر حوزه موضوعی علوم کامپیوتر است . مخزن UCI از مردم برای قرار دادن داده خود در این پایگاه تشکر می کند و آنها را مهم ترین سرمایه خود می داند .
در حال حاضر ، 622 مجموعه داده در مورد یادگیری ماشین در این وب سایت وجود دارد . برای دسترسی به این مجموعه داده ها ، به آدرس https://archive.ics.uci.edu/ml/index.php وارد شوید . در صفحه نخست ، سه ستون وجود دارد . ستون اول : آخرین اخبار ، ستون دوم : جدیدترین مجموعه داده ها و ستون سوم محبوب ترین مجموعه داده ها دیده می شود . اگر مجموعه داده خود را در این صفحه پیدا کردید روی آن کلیک کنید .
به صفحه زیر منتقل می شوید . در این صفحه اطلاعاتی مثل عنوان مجموعه داده ، دانلود و توصیف آن ، چکیده که اغلب توصیفی از کاربرد مجموعه داده و الگوریتم های توصیه شده برای یادگیری ماشین را نشان می دهد . در جدول مربوط به هر مجموعه داده می توان به اطلاعاتی مثل نوع مجموعه داده ، ویژگی آن ، وظایف مرتبط ، تعداد موارد و تعداد صفات ، حوزه موضوعی ، تاریخ محجموعه داده و تعداد بازدیدها دست یافت . در صورتی که از مجموعه داده مخزن UCI استفاده می کنید ، در انتهای آن شیوه ارجاع دهی به آن مجموعه داده با عنوان Citation Request وجود دارد که بر اساس آن و به دلیل اعتبار بخشی به کار خود به آن ارجاع دهید .
علاوه بر این مقاله مرتبط با مجموعه داده خود را با عنوان Relevant Papers می توانید در این قسمت ببینید .
در صورتی که مجموعه داده مورد نظر خود را در صفحه ابتدایی پیدا نکردید ، در جعبه جستجو نام آن را وارد کنید . توجه داشته باشید که از گزینه Repository استفاده کنید و بعد جستجو کنید . کوئری شما در موتور گوگل بازیابی می شود .
در صورتی که لازم داشتید تا انواع داده های نمایه شده در این پایگاه را ببینید روی View ALL Data Sets کلیک کنید . در این صفحه می توانید نوع داده را بر اساس آنچه نیاز دارید ، محدود کنید . از جمله مواردی که می توانید فیلتر را انجام دهید شامل Default Task ، Attribute Type ، Data Type و غیره است . علاوه بر این، می توانید با کلیک روی هر آیتم جدول ، مرتب سازی داده را بر اساس علاقه خود انجام دهید .
در صفحه Donate a Data Set ، می توانید اگر مجموعه داده ای دارید ارسال کنید .