مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

آشنایی با داده train و test

تاریخ: 1400/02/26

بازدید: 5090

زمان مطالعه: 5 دقیقه / لینک کوتاه:

کلیدواژگان: تقسیم داده‌ها | داده آموزش | داده آزمون

sklearn.model_selection.train_test_split(*arrays, **options)

این تابع برای تقسیم داده‌ها به دو مجموع آموزش و آزمون استفاده می‌شود. پارامترهای اول تابع آرایه‌های مورد نظر برای تقسیم هستند. در این قسمت می‌توانیم هر چند آرایه که لازم است را وارد کنیم. سایر پارامترهای تابع شامل test_size، train_size، random_state، shuffle و stratify هستند. پارامتر اول مربوط به بهم زدن داده‌ها است تا ترتیب‌های احتمالی تصادفی در داده‌ها را از بین ببریم(مقدار پیش‌فرض True). پارامتر دوم مربوط به هسته‌ای است که توسط تابع تولید عدد تصادفی استفاده می‌شود. با تنظیم این پارامتر به یک مقدار ثابت نتایج آزمایش‌ها تکرار پذیر می‌شود. دو پارامتر بعدی که مقداری بین 0.0 و 1.0 هستند، به ترتیب اندازه داده‌های آموزش و آزمون را مشخص می‌کنند. به صورت پیش‌فرض یک چهارم داده‌ها به عنوان داده‌های آزمون انتخاب می‌شود. آخرین پارامتر مربوط به درصد هر یک از کلاس‌ها در قسمت‌های آموزش و آزمون است. اگر یک آرایه به این پارامتر ارسال شود بر اساس آن سهم هر کلاس در داده‌های آموزش و آزمون مشخص خواهد شد(مثال دوم و سوم را ببینید).

import numpy as np from sklearn.model_selection import train_test_split x = np.random.rand(500) y = np.random.rand(500) train_data, test_data, train_label, test_label = train_test_split(x,y) print(len(train_data), len(test_data), len(train_label), len(test_label))

نتیجه

375 125 375 125

:آزمون

x = ['a','b','c','d','a','b','c','d','a','b','c','d'] y = [1,2,1,1,2,1,1,1,1,1,2,2] train_data, test_data, train_label, test_label = train_test_split(x,y) print(train_data, test_data, train_label, test_label)

نتیجه:

['c', 'b', 'b', 'a', 'd', 'c', 'd', 'a', 'b'] ['c', 'a', 'd'] [1, 2, 1, 2, 2, 2, 1, 1, 1] [1, 1, 1]

:آزمون

x = ['a','b','c','d','a','b','c','d','a','b','c','d'] y = [1,2,1,1,2,1,1,1,1,1,2,2] train_data, test_data, train_label, test_label = train_test_split(x,y, stratify=y) print(train_data, test_data, train_label, test_label)

نتیجه:

['a', 'b', 'd', 'd', 'a', 'c', 'b', 'd', 'c'] ['b', 'c', 'a'] [1, 2, 2, 1, 1, 1, 1, 1, 2] [1, 1, 2]

دوره آموزشی متن کاوی با پایتون مقدماتی (مجازی)

کدام وب سایت ها از پایتون استفاده می کنند

لینک کوتاه

بازگشت به بالا

پست های مرتبط

نایو بیز چیست؟

تاریخ: 1401/04/21

بازدید: 4113

زمان مطالعه: 2 دقیقه

یکی از قوانین مهم احتمال، قانون احتمال "بیز" است که توسط فردی به نام بیز مطرح شد.

ادامه مطلب

ماتریس تحول چیست؟

تاریخ: 1399/12/23

بازدید: 3113

زمان مطالعه: 5 دقیقه دقیقه

Transition Matrix

ادامه مطلب

بررسی تحلیلی موضوعات "زبان فارسی" و "فردوسی" در پایگاه SID به مناسبت پاسداشت زبان فارسی و بزرگداشت حکیم ابوالقاسم فردوسی

تاریخ: 1400/02/25

بازدید: 5403

زمان مطالعه: 5 دقیقه دقیقه

براساس گزارش مرکز اطلاعات علمی جهاددانشگاهی، مقاله‌های علمی فارسی پربازدید با کلیدواژه‌های "زبان فارسی" یا "فردوسی" در بازه هزارروزه معرفی شدند.

ادامه مطلب

بیشینه آنتروپی یک توزیع چقدر است؟

تاریخ: 1401/01/17

بازدید: 3966

زمان مطالعه: 5 دقیقه دقیقه

مفهوم آنتروپی ، در مقاله ای که در سال 1948 توسط شانون مطرح شد .

ادامه مطلب

چگونه در بیب اکسل ماتریس هم آیندی ایجاد کنیم؟

تاریخ: 1400/01/14

بازدید: 3147

زمان مطالعه: 5 دقیقه دقیقه

نرم افزار بیب اکسل

ادامه مطلب

ابزار تحلیل شخصیت بر اساس واژگان

تاریخ: 1399/10/24

بازدید: 3011

زمان مطالعه: 5 دقیقه دقیقه

معرفی AnalyzeWords

ادامه مطلب

قضیه حد مرکزی

تاریخ: 1400/01/03

بازدید: 14335

زمان مطالعه: 5 دقیقه دقیقه

Central limit theorem

ادامه مطلب

اینفوگرافی استفاده از روشهای یادگیری عمیق در تحلیل احساس

تاریخ: 1397/06/13

بازدید: 1468

زمان مطالعه: 5 دقیقه دقیقه

اینفوگرافی

ادامه مطلب

دسترسی رایگان به مجموعه داده ها

تاریخ: 1401/03/01

بازدید: 7966

زمان مطالعه: 3 دقیقه

در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم .

ادامه مطلب

زیرشمولی و فراشملوی

تاریخ: 1400/01/16

بازدید: 1970

زمان مطالعه: 5 دقیقه دقیقه

ادامه مطلب

پایگاه اطلاعات علمی جهاد دانشگاهی

فیلم آموزشی فرآیند نوشتن مقاله مروری

کارگاه آنلاین آشنایی با پایگاه های اطلاعات علمی بین المللی و ترفند های جستجو

آموزش مهارت های کاربردی در تدوین و چاپ مقالات پژوهشی ISI ( مقاله نویسی )

پکیج مهارت های پژوهش (صفر تا صد مقاله نویسی )

بلاگ

آشنایی با داده train و test

لینک کوتاه

نایو بیز چیست؟

ماتریس تحول چیست؟

بررسی تحلیلی موضوعات "زبان فارسی" و "فردوسی" در پایگاه SID به مناسبت پاسداشت زبان فارسی و بزرگداشت حکیم ابوالقاسم فردوسی

بیشینه آنتروپی یک توزیع چقدر است؟

چگونه در بیب اکسل ماتریس هم آیندی ایجاد کنیم؟

ابزار تحلیل شخصیت بر اساس واژگان

قضیه حد مرکزی

اینفوگرافی استفاده از روشهای یادگیری عمیق در تحلیل احساس

دسترسی رایگان به مجموعه داده ها

زیرشمولی و فراشملوی