فیلترها/جستجو در نتایج    

فیلترها

سال

بانک‌ها


گروه تخصصی


متن کامل


اطلاعات دوره: 
  • سال: 

    1401
  • دوره: 

    11
  • شماره: 

    21
  • صفحات: 

    85-98
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    93
  • دانلود: 

    19
چکیده: 

هدف از سیستم­های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چراکه بازشناسی احساس و اهداف انسان از روی گفتار، به بهبود تعاملات بین انسان و ماشین کمک می­کند. بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مسأله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش­ها کم رنگ­تر شدند. هدف از این پژوهش، استفاده از روش­های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم­ها است. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه­های عصبی پیچشی سه بعدی برای یادگیری ویژگی­های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از ساختار هرمی جدید شبکه­های عصبی پیچشی سه بعدی اتصال داده شده؛ که یک معماری چند مقیاسه از شبکه­های عصبی پیچشی سه بعدی روی ابعاد ورودی است، بهره گرفته شد. در نهایت برای یادگیری ویژگی­های طیفی زمانی استخراج شده از ساختار جدید (ساختار جدید هرمی شبکه­های عصبی پیچشی سه بعدی) با درنظر گرفتن رابطه مکانی و زمانی اطلاعات به صورت کامل، از شبکه کپسول زمانی استفاده شد. در نهایت بر ساختار پیشنهادی که یک ساختار قدرتمند برای ویژگی­های طیفی زمانی است نام  MSID 3DCNN + Temporal Capsule   نهاده شد. پژوهش انجام شده و مدل نهایی بر روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودیس که یک پایگاه داده چند حالته است انجام شد. نتایجی که با استفاده از مدل پیشنهادی به دست آمد؛ نسبت به مدل­های مرسوم، قابل توجه است. در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، دقت 77/81 درصد به دست آمد.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 93

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 19 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
نویسندگان: 

AGHAJANI K. | Esmaili Paeen Afrakoti I.

اطلاعات دوره: 
  • سال: 

    2020
  • دوره: 

    33
  • شماره: 

    2 (TRANSACTIONS B: Applications)
  • صفحات: 

    285-292
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    236
  • دانلود: 

    0
چکیده: 

Speech Emotion Recognition (SER) is an important part of speech-based Human-Computer Interface (HCI) applications. Previous SER methods rely on the extraction of features and training an appropriate classifier. However, most of those features can be affected by emotionally irrelevant factors such as gender, speaking styles and environment. Here, an SER method has been proposed based on a concatenated Convolutional Neural Network (CNN) and a Recurrent Neural Network (RNN). The CNN can be used to learn local salient features from speech signals, images, and videos. Moreover, the RNNs have been used in many sequential data processing tasks in order to learn long-term dependencies between the local features. A combination of these two gives us the advantage of the strengths of both networks. In the proposed method, CNN has been applied directly to a scalogram of speech signals. Then, the attention-mechanism-based RNN model was used to learn long-term temporal relationships of the learned features. Experiments on various data such as RAVDESS, SAVEE, and Emo-DB demonstrate the effectiveness of the proposed SER method.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 236

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
اطلاعات دوره: 
  • سال: 

    1401
  • دوره: 

    13
  • شماره: 

    52
  • صفحات: 

    79-98
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    150
  • دانلود: 

    252
چکیده: 

بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش های آموزش شبکه های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیاده سازی نسبت به روش های موجود ساده تر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکه های عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکه های کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان می دهد که استفاده از شبکه های عصبی ترنسفورمر در بازشناسی بعضی از حالت های احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده که استفاده از شبکه های عصبی ساده به صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار می تواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکه های عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال-ترنسفورمر (CTF) برای دادگان راودس دقتی برابر 94/80 درصد به دست آورد؛ در حالی که یک شبکه عصبی کانولوشنی ساده دقتی در حدود 7/72 درصد به دست آورد. همچنین ترکیب شبکه های عصبی ساده علاوه بر اینکه می تواند دقت بازشناسی را افزایش دهد، می تواند زمان آموزش و نیاز به نمونه های آموزشی برچسب دار را نیز کاهش دهد.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 150

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 252 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources
نویسندگان: 

Sharifzadeh Jafari Zahra | Seyedin Sanaz

اطلاعات دوره: 
  • سال: 

    2024
  • دوره: 

    56
  • شماره: 

    2
  • صفحات: 

    213-226
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    10
  • دانلود: 

    0
چکیده: 

Recognizing the emotions from speech signals is very important in different applications of human-computer-interaction (HCI). In this paper, we present a novel model for speech emotion recognition (SER) based on new multi-task parallel convolutional autoencoder (PCAE) and transformer networks. The PCAEs have been proposed to generate high-level informative harmonic sparse features from the input. With the aid of the proposed parallel CAE, we can extract nonlinear sparse features in an ensemble manner improving the accuracy and the generalization of the model. These PCAEs also address the problem of the loss of initial sequential information during convolution operations for SER tasks. We have also proposed using a transformer in parallel with PCAEs to gather long-term dependencies between speech samples and make use of its self-attention mechanism. Finally, we have proposed a multi-task loss function made up of two terms of classification and AE mapper losses. This multi-task loss tries not only to reduce the classification error but also the regression error caused by the PCAEs which also work as mappers between the input and output Mel-frequency-cepstral-coefficients (MFCCs). Thus, we can both focus on finding accurate features with PCAEs and improving the classification results. We have evaluated our proposed method on the RAVDESS SER dataset in different terms of accuracy, precision, recall, and f1-score. The average accuracy of the proposed model on eight emotions outperforms all the recent baselines.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 10

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
نویسندگان: 

Jadhav Nagesh | sugandhi Rekha

اطلاعات دوره: 
  • سال: 

    2022
  • دوره: 

    10
  • شماره: 

    2 (38)
  • صفحات: 

    89-101
تعامل: 
  • استنادات: 

    0
  • بازدید: 

    54
  • دانلود: 

    0
چکیده: 

Emotional distress detection has become a hot topic of research in recent years due to concerns related to mental health and complex nature distress identification. One of the challenging tasks is to use non-invasive technology to understand and detect emotional distress in humans. Personalized affective cues provide a non-invasive approach considering visual, vocal, and verbal cues to recognize the affective state. In this paper, we are proposing a multimodal hierarchical weighted framework to recognize emotional distress. We are utilizing negative emotions to detect the unapparent behavior of the person. To capture facial cues, we have employed hybrid models consisting of a transfer learned residual network and CNN models. Extracted facial cue features are processed and fused at decision using a weighted approach. For audio cues, we employed two different models exploiting the LSTM and CNN capabilities fusing the results at the decision level. For textual cues, we used a BERT transformer to learn extracted features. We have proposed a novel decision level adaptive hierarchical weighted algorithm to fuse the results of the different modalities. The proposed algorithm has been used to detect the emotional distress of a person. Hence, we have proposed a novel algorithm for the detection of emotional distress based on visual, verbal, and vocal cues. Experiments on multiple datasets like FER2013, JAFFE, CK+, RAVDESS, TESS, ISEAR, Emotion Stimulus dataset, and Daily-Dialog dataset demonstrates the effectiveness and usability of the proposed architecture. Experiments on the enterface'05 dataset for distress detection has demonstrated significant results.

شاخص‌های تعامل:   مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resources

بازدید 54

مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesدانلود 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesاستناد 0 مرکز اطلاعات علمی Scientific Information Database (SID) - Trusted Source for Research and Academic Resourcesمرجع 0
litScript
telegram sharing button
whatsapp sharing button
linkedin sharing button
twitter sharing button
email sharing button
email sharing button
email sharing button
sharethis sharing button