بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

دسترسی رایگان به مجموعه داده ها


UCI چیست ؟

مجموعه داده چیست ؟

مجموعه داده یا دیتاست[1] به فایل هایی گفته می شود که دربردارنده بیش از یک یا چند رکورد هستند .  در مورد جداول ، یک مجموعه داده مربوط به یک یا چند جدول پایگاه داده است ، که هر ستون نشان دهنده مقدار خاصی است و هر ردیف مربوط به یک رکورد مجموعه داده است . مجموعه داده ، تعدادی از اعداد یا مقادیری است که به موضوع خاصی مربوط است . برای مثال نمرات امتحانات دانش آموزان در یک کلاس ، یک مجموعه داده است ، یا تعداد ماهی هایی که توسط کوسه در دریا خورده می شوند ، یک مجموعه داده است .

در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم . مخزن UCI ، پایگاهی است که مجموعه داده به زبان انگلیسی را به طور رایگان در اختیار محققان قرار می دهد .

UCI چیست ؟

UCI ، مخزنی برای یادگیری ماشین ، مجموعه ای از پایگاه های داده ، تئوری های دامنه و تولید کننده داده است که توسط جامعه یادگیری ماشین برای تحلیل تجربی الگوریتم های یادگیری ماشین به کار می رود . مخزن UCI در سال 1987 توسط دیوید آها و همکارانش ساخته شد . از آن زمان به بعد مخزن UCI به مخزنی برای همه دانشجویان ، محققان و همه کسانی شد که نیاز به داده های مربوط به یادگیری ماشین دارند . داده های موجود در مخزن UCI بیش از هزار بار توسط مقالات مختلف مورد استناد قرار گرفته اند . البته یکی از مقالاتی که از داده های مخزن UCI استفاده کرده جز صد مقاله برتر حوزه موضوعی علوم کامپیوتر است . مخزن UCI از مردم برای قرار دادن داده خود در این پایگاه تشکر می کند و آنها را مهم ترین سرمایه خود می داند .

در حال حاضر ، 622 مجموعه داده در مورد یادگیری ماشین در این وب سایت وجود دارد . برای دسترسی به این مجموعه داده ها ، به آدرس وارد شوید . در صفحه نخست ، سه ستون وجود دارد . ستون اول : آخرین اخبار ، ستون دوم : جدیدترین مجموعه داده ها و ستون سوم محبوب ترین مجموعه داده ها دیده می شود . اگر مجموعه داده خود را در این صفحه پیدا کردید روی آن کلیک کنید .

 

UCI چیست ؟

به صفحه زیر منتقل می شوید . در این صفحه اطلاعاتی مثل عنوان مجموعه داده ، دانلود و توصیف آن ، چکیده که اغلب توصیفی از کاربرد مجموعه داده و الگوریتم های توصیه شده برای یادگیری ماشین را نشان می دهد . در جدول مربوط به هر مجموعه داده می توان به اطلاعاتی مثل نوع مجموعه داده ، ویژگی آن ، وظایف مرتبط ، تعداد موارد و تعداد صفات ، حوزه موضوعی ، تاریخ محجموعه داده و تعداد بازدیدها دست یافت .  در صورتی که از مجموعه داده مخزن UCI استفاده می کنید ، در انتهای آن شیوه ارجاع دهی به آن مجموعه داده با عنوان Citation Request وجود دارد که بر اساس آن و به دلیل اعتبار بخشی به کار خود به آن ارجاع دهید .

 

UCI چیست ؟

علاوه بر این مقاله مرتبط با مجموعه داده خود را با عنوان Relevant Papers می توانید در این قسمت ببینید .

در صورتی که مجموعه داده مورد نظر خود را در صفحه ابتدایی پیدا نکردید ، در جعبه جستجو نام آن را وارد کنید . توجه داشته باشید که از گزینه Repository استفاده کنید و بعد جستجو کنید . کوئری شما در موتور گوگل بازیابی می شود .

 

UCI چیست ؟

در صورتی که لازم داشتید تا انواع داده های نمایه شده در این پایگاه را ببینید روی View ALL Data Sets کلیک کنید . در این صفحه می توانید نوع داده را بر اساس آنچه نیاز دارید ، محدود کنید . از جمله مواردی که می توانید فیلتر را انجام دهید شامل Default Task ، Attribute Type ، Data Type و غیره است . علاوه بر این، می توانید با کلیک روی هر آیتم جدول ، مرتب سازی داده را بر اساس علاقه خود انجام دهید .

در صفحه Donate a Data Set ، می توانید اگر مجموعه داده ای دارید ارسال کنید .

برای دریافت آخرین‌های بلاگ در خبرنامه عضو شوید.


[1] Data sets

لینک کوتاه

لینک کوتاه

بازگشت به بالا

پست های مرتبط

چند مجموعه یا خورجین

تاریخ: 1400/04/01

بازدید: 2168

1400

زمان مطالعه: 5 دقیقه دقیقه

آشنایی با ریاضی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

قضیه حد مرکزی

تاریخ: 1400/01/03

بازدید: 14134

1400

زمان مطالعه: 5 دقیقه دقیقه

Central limit theorem

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

اینفوگرافی استفاده از روشهای یادگیری عمیق در تحلیل احساس

تاریخ: 1397/06/13

بازدید: 1442

1397

زمان مطالعه: 5 دقیقه دقیقه

اینفوگرافی

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

آشنایی با داده train و test

تاریخ: 1400/02/26

بازدید: 4888

1400

زمان مطالعه: 5 دقیقه دقیقه

کد پایتون برای داده های train و test

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بیشینه آنتروپی یک توزیع چقدر است؟

تاریخ: 1401/01/17

بازدید: 3809

1401

زمان مطالعه: 5 دقیقه دقیقه

مفهوم آنتروپی ، در مقاله ای که در سال 1948 توسط شانون مطرح شد .

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

نایو بیز چیست؟

تاریخ: 1401/04/21

بازدید: 4018

1401

زمان مطالعه: 2 دقیقه

یکی از قوانین مهم احتمال، قانون احتمال "بیز" است که توسط فردی به نام بیز مطرح شد.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

ماتریس تحول چیست؟

تاریخ: 1399/12/23

بازدید: 3072

1399

زمان مطالعه: 5 دقیقه دقیقه

Transition Matrix

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بررسی تحلیلی موضوعات "زبان فارسی" و "فردوسی" در پایگاه SID به مناسبت پاسداشت زبان فارسی و بزرگداشت حکیم ابوالقاسم فردوسی

تاریخ: 1400/02/25

بازدید: 5345

1400

زمان مطالعه: 5 دقیقه دقیقه

براساس گزارش مرکز اطلاعات علمی جهاددانشگاهی، مقاله‌های علمی فارسی پربازدید با کلیدواژه‌های "زبان فارسی" یا "فردوسی" در بازه هزارروزه معرفی شدند.

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

زیرشمولی و فراشملوی

تاریخ: 1400/01/16

بازدید: 1922

1400

زمان مطالعه: 5 دقیقه دقیقه

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

چگونه در بیب اکسل ماتریس هم آیندی ایجاد کنیم؟

تاریخ: 1400/01/14

بازدید: 3088

1400

زمان مطالعه: 5 دقیقه دقیقه

نرم افزار بیب اکسل

Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins