تشخیص گوینده، فرآیند تشخیص افراد بر اساس صوت آنها است که در کاربردهای زیادی مورد استفاده قرار می گیرد. اگرچه تاکنون تحقیقات زیادی در زمینه ی تشخیص گوینده صورت گرفته است، اما چالش هایی وجود دارد که هنوز حل نشده اند. در این مقاله به منظور بهبود دقت سیستم های تشخیص گوینده از نتروسافیک و شبکه های عصبی کانولوشنال بهره گرفته شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صوتی تشکیل می گردد سپس اسپکتروگرام به فضای نتروسافیک منتقل می شود. در مرحله ی بعد عملگرهای بهبود بتا به مجموعه های نتروسافیک اعمال می شود و این عملیات تا ثابت شدن آنتروپی مجموعه های نتروسافیک تکرار می گردد. در نهایت یک مدل شبکه ی عصبی کانولوشنال برای طبقه بندی هیستوگرام پیشنهاد می شود. برای ارزیابی و تحلیل روش پیشنهادی از دو پایگاه داده ی Aurora2 و TIMIT استفاده شده است. روش پیشنهادی روی پایگاه داده ی Aurora2 به دقت 79/93 درصد و روی پایگاه داده ی TIMIT به دقت 24/95 درصد دست یافته است که در مقایسه با روش های رقیب عملکرد بهتری داشته است.