مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بلاگ

پایگـاه اطلاعات علمی جهاد دانشگاهی

آشنایی با داده train و test


sklearn.model_selection.train_test_split(*arrays, **options)

این تابع برای تقسیم داده‌ها به دو مجموع آموزش و آزمون استفاده می‌شود. پارامترهای اول تابع آرایه‌های مورد نظر برای تقسیم هستند. در این قسمت می‌توانیم هر چند آرایه که لازم است را وارد کنیم. سایر پارامترهای تابع شامل test_size، train_size، random_state، shuffle و stratify هستند. پارامتر اول مربوط به بهم زدن داده‌ها است تا ترتیب‌های احتمالی تصادفی در داده‌ها را از بین ببریم(مقدار پیش‌فرض True). پارامتر دوم مربوط به هسته‌ای است که توسط تابع تولید عدد تصادفی استفاده می‌شود. با تنظیم این پارامتر به یک مقدار ثابت نتایج آزمایش‌ها تکرار پذیر می‌شود. دو پارامتر بعدی که مقداری بین 0.0 و 1.0 هستند، به ترتیب اندازه داده‌های آموزش و آزمون را مشخص می‌کنند. به صورت پیش‌فرض یک چهارم داده‌ها به عنوان داده‌های آزمون انتخاب می‌شود. آخرین پارامتر مربوط به درصد هر یک از کلاس‌ها در قسمت‌های آموزش و آزمون است. اگر یک آرایه به این پارامتر ارسال شود بر اساس آن سهم هر کلاس در داده‌های آموزش و آزمون مشخص خواهد شد(مثال دوم و سوم را ببینید).

import numpy as np
from sklearn.model_selection import train_test_split
x = np.random.rand(500)
y = np.random.rand(500)
train_data, test_data, train_label, test_label = train_test_split(x,y)
print(len(train_data), len(test_data), len(train_label), len(test_label))

نتیجه

375 125 375 125

 

:آزمون
 

x = ['a','b','c','d','a','b','c','d','a','b','c','d']
y = [1,2,1,1,2,1,1,1,1,1,2,2]
train_data, test_data, train_label, test_label = train_test_split(x,y)
print(train_data, test_data, train_label, test_label)

نتیجه:

['c', 'b', 'b', 'a', 'd', 'c', 'd', 'a', 'b'] ['c', 'a', 'd'] [1, 2, 1, 2, 2, 2, 1, 1, 1] [1, 1, 1]

:آزمون

x = ['a','b','c','d','a','b','c','d','a','b','c','d']
y = [1,2,1,1,2,1,1,1,1,1,2,2]
train_data, test_data, train_label, test_label = train_test_split(x,y, stratify=y)
print(train_data, test_data, train_label, test_label)

نتیجه:

['a', 'b', 'd', 'd', 'a', 'c', 'b', 'd', 'c'] ['b', 'c', 'a'] [1, 2, 2, 1, 1, 1, 1, 1, 2] [1, 1, 2]

دوره آموزشی متن کاوی با پایتون مقدماتی (مجازی)

کدام وب سایت ها از پایتون استفاده می کنند

لینک کوتاه

لینک کوتاه

بازگشت به بالا

پست های مرتبط

چند مجموعه یا خورجین

تاریخ: 1400/04/01

بازدید: 2185

1400

زمان مطالعه: 5 دقیقه دقیقه

آشنایی با ریاضی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

جستجوی حریصانه

تاریخ: 1400/01/12

بازدید: 3588

1400

زمان مطالعه: 5 دقیقه دقیقه

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

LSTM چیست؟

تاریخ: 1401/02/24

بازدید: 7178

1401

زمان مطالعه: 5 دقیقه

Long short-term memory (LSTM) ، یک شبکه عصبی مصنوعی است که در حوزه های موضوعی هوش مصنوعی و یادگیری عمیق به کار گرفته می شود.

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

ابزار تحلیل شخصیت بر اساس واژگان

تاریخ: 1399/10/24

بازدید: 2992

1399

زمان مطالعه: 5 دقیقه دقیقه

معرفی AnalyzeWords

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بیشینه آنتروپی یک توزیع چقدر است؟

تاریخ: 1401/01/17

بازدید: 3933

1401

زمان مطالعه: 5 دقیقه دقیقه

مفهوم آنتروپی ، در مقاله ای که در سال 1948 توسط شانون مطرح شد .

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

دسترسی رایگان به مجموعه داده ها

تاریخ: 1401/03/01

بازدید: 7847

1401

زمان مطالعه: 3 دقیقه

در فرآیند یادگیری ماشین ، محقق برای انجام کارهای مورد نظر خود نیاز به مجموعه داده استاندارد دارد . در این پست به معرفی یکی از پایگاه هایی که به طور رایگان ، مجموعه داده را در اختیار محققان قرار می دهد می پردازیم .

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

اینفوگرافی استفاده از روشهای یادگیری عمیق در تحلیل احساس

تاریخ: 1397/06/13

بازدید: 1461

1397

زمان مطالعه: 5 دقیقه دقیقه

اینفوگرافی

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

چگونه در بیب اکسل ماتریس هم آیندی ایجاد کنیم؟

تاریخ: 1400/01/14

بازدید: 3132

1400

زمان مطالعه: 5 دقیقه دقیقه

نرم افزار بیب اکسل

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

بررسی تحلیلی موضوعات "زبان فارسی" و "فردوسی" در پایگاه SID به مناسبت پاسداشت زبان فارسی و بزرگداشت حکیم ابوالقاسم فردوسی

تاریخ: 1400/02/25

بازدید: 5387

1400

زمان مطالعه: 5 دقیقه دقیقه

براساس گزارش مرکز اطلاعات علمی جهاددانشگاهی، مقاله‌های علمی فارسی پربازدید با کلیدواژه‌های "زبان فارسی" یا "فردوسی" در بازه هزارروزه معرفی شدند.

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

ماتریس تحول چیست؟

تاریخ: 1399/12/23

بازدید: 3101

1399

زمان مطالعه: 5 دقیقه دقیقه

Transition Matrix

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمدرس

@ins

telegram sharing button
whatsapp sharing button
linkedin sharing button
twitter sharing button
email sharing button
email sharing button
email sharing button
sharethis sharing button