عنوان فارسی:دانلود ترجمه مقاله شناسایی احساسات قوی از گفتار
دانلود ترجمه مقاله شناسایی احساسات قوی از گفتار – اسپرینگر ۲۰۱۸:این مقاله روش را ارائه می کند که بر اساس آن، ویژگی های انرژی GTF و ویژگی های کپسترال GTF با استفاده از فیلتر های نوای گاما از گفتار استخراج می شود که بر روی مقیاس های ERB/MEL/BARK قرار دارند و سپس از تکنیک های مدل سازی برای ارزیابی سیستم شناسایی احساسات برای گفتار های انتخاب شده از دیتابیس EMO-DB و SAVEE استفاده می کند. گفتار ادا شده توسط افراد که برای تمرین این الگوریتم ها مورد استفاده قرار می گیرد با یکدیگر ترکیب شده اند و به صورت قاب های زمانی همراه با پیش پردازش مورد استفاده قرار می گیرند.
عنوان فارسی مقاله: | شناسایی احساسات قوی از گفتار: ویژگی ها و مدل گاما |
عنوان انگلیسی مقاله: | |
سال انتشار میلادی: | 2018 |
نشریه: |
اسپرینگر ۲۰۱۸ مجله بین المللی تکنولوژی گفتار – International Journal of Speech Technology |
کلمات کلیدی فارسی: |
سيستم تشخيص احساسات (ERS)، ویژگی های نوای گاما ، چند سازی برداری (VQ)، الگوریتم خوشه بندی c میانگین (FCM)، چند مدل مارکوف پنهان (MHMM)، ماشین بردار پشتیبانی (SVM)
|
کلمات کلیدی انگلیسی: |
Emotion recognition system (ERS), Gamma tone features, Vector quantization (VQ), Fuzzy C means clustering (FCM), Multi variate hidden Markov models (MHMM), Support vector machine
|
تعداد صفحات ترجمه شده: | ۲۶ صفحه با فونت ۱۴ B Nazanin |
نویسندگان: |
A. Revathi· N. Sasikaladevi · R. Nagakrishnan · C. Jeyalakshmi
|
موضوع: | هوش مصنوعی و مهندسی الگوریتم ها و محاسبات |
دسته بندی رشته: | مهندسی کامپیوتر |
فرمت فایل انگلیسی: | ۱۷ صفحه با فرمت pdf |
فرمت فایل ترجمه شده: | Word |
کیفیت ترجمه: | عالی |
نوع مقاله: | isi |
تعداد رفرنس: |
مقاله انگلیسی+ترجمه فارسی
فهرست مطالب
چکیده
۱- مقدمه
۲- استخراج ویژگی
۲-۱ بانک های فیلتر نوای گاما
۳- شناسایی احساسات مبتنی بر ویژگی ها و تکنیک های مدل سازی
۳-۱ تحلیل آزمایشی مبتنی بر تکنیک های VQ/FCM/MHMM/SVM
۳-۲ ارزیابی آزمایشی : نتایج و مباحث
۴- جمع بندی
چکیده
اکنون ، اهمیت رایانش احساسی برای تضمین تعامل بهتر و موثرتر انسان – ماشین بسیار افزایش یافته است. به دلیل این که سیگنال های وابسته به دهان و حنجره و سیگنال های گفتاری، نشان دهنده مشخصه های ماهیت احساسی گویشور به علاوه ی اطلاعات زبانی می باشد، احساسات گویشور نیز باید شناسایی شود تا پاسخ صحیحی توسط سیستم ارائه شود. این مقاله ، تاکیدش بر روی کارایی و تاثیر انتخاب ویژگی های انرژی با گذر دادن کلام از طریق فیلتر های نوای گاما می باشد که در پهنای باند مستطیلی معادل (ERB) ، MEL و مقیاس BARK قرار گرفته اند. تکنیک های مدل سازی مختلفی برای توسعه ی سیستم قوی شناسایی تنش/ احساسات گویشور مستقل از حضور چندین گویشور ارائه شده است.
به دلیل این که مجموعه داده ی EMO-DB Berlin و مجموعه داده ی صوتی – تصویری احساسی SAVEE که در این کار مورد استفاده قرار گرفته اند تنها شامل مجموعه ای محدود از گفتمان های گفتاری هستند که توسط ۱۰/۴ عامل / گویشور در حالات احساسی مختلف ادا شده است، بهبود عملکرد سیستم های شناسایی تنش / احساسات کار دشواری می باشد. شناسایی احساسات گویشور به صورت مستقل با استخراج ویژگی های نوای گاما و ویژگی های کپسترال ، از طریق عبور دادن گفتار الحاق شده از فیلتر های نوای گاما در ERB ، MEL و مقیاس BARK که برای تمرین در نظر گرفته شده است ، انجام می شود. سپس، مدل های دسته بندی فازی / VQ و مدل های مارکوف پنهان با تراکم پیوسته برای تمام احساسات ایجاد می شود و ارزیابی آن نیز تنها با استفاده از گفتار گویشور مستقل از گویش های در نظر گرفته شده برای تمرین، انجام می شود.
ویژگی های پیشنهاد شده برای گفتار تست ثبت شده و سپس بر روی مدل های VQ/Fuzzy/MHMM/SVM اعمال می شوند و سپس تست این روند با استفاده از معیار های احتمال لگاریتمی بیشینه / معیار حداقل فاصله ارزیابی می شود. ویژگی های کپسترال/ انرژی نوای گاما و تکنیک های مدل سازی ارائه شده، می توانند شواهد اضافی ارائه کنند تا عملکرد سیستم ارائه شده را ارزیابی کنیم. این الگوریتم ۹۶% ، ۷۹% و ۹۵٫۳% را به عنوان بازیابی صحت وزن دار برای سیستم شناسایی تنش نسبت به طبقه بندی انجام شده در گروه های خاص احساسی با مدل های VQ/Fuzzy/MHMM/SVM برای ویژگی های انرژی GFT با فیلتر های گاما قرار گرفته به ترتیب بر روی مقیاس های ERB ، MEL و BARK ارائه می کند که برای سیستمی به دست آمده که با دیتابیس EMO-DB ارزیابی شده است. صحت بازیابی وزن دار نیز برای سیستم شناسایی تنش نسبت به طبقه بندی انجام شده در گروه های خاص احساسی با مدل های VQ/Fuzzy/MHMM/SVM برای ویژگی های انرژی GFT با فیلتر های گاما قرار گرفته به ترتیب بر روی مقیاس های ERB ، MEL و BARK د که برای سیستمی با دیتابیس SAVEE ارزیابی شده است ، به صورت ۹۱% ، ۹۳% و ۹۴% می باشد. ویژگی های کپسترال نوای گاما ، صحت کلی ۹۲% ، ۹۰% و ۹۲% را برای فیلتر های قرار گرفته در مقیاس ERB ، MEL و BARK را برای مجموعه داده ی Berlin EMO-BD ایجاد می کند. طبقه بندی ترکیب سطح تصمیم گیری مبتنی بر ویژگی های انرژی GTF و تکنیک های مدل سازی می تواند صحت کلی ۹۹٫۸% را برای مجموعه داده های EO-DB و برای مجموعه داده ی SAVEE صحت ۱۰۰% را ایجاد کند.
Abstract
Affective computing is gaining paramount importance in ensuring the better and effective human–machine interaction. As glottal and speech signals depict the characteristics of the emotional nature of the speaker in addition to the linguistic information, speaker’s emotions are needed to be recognised to give meaningful response by the system. This paper emphasises the effectiveness and efficiency in selecting the energy features by passing the speech through the Gamma tone filters spaced in Equivalent rectangular bandwidth (ERB), MEL and BARK scale. Various modelling techniques are used to develop the robust multi-speaker independent speaker’s emotion/stress recognition system.
Since EMO-DB Berlin database and SAVEE emotional audio-visual database used in this work contain the only limited set of speech utterances uttered by 10/4 actors/ speakers in different emotions, it has become challenging to improve the performance of the stress/emotion recognition system. Speaker independent emotion recognition is done by extracting the Gamma tone energy features and cepstral features by passing the concatenated speech considered for training through the Gamma tone filters spaced in ERB, MEL and BARK scales. Subsequently, VQ/Fuzzy clustering models and continuous density hidden Markov models are created for all emotions and evaluation is done with the utterances of a speaker independent of speeches considered for training. The proposed features for test utterances are captured and applied to the VQ/Fuzzy/MHMM/SVM models and testing is performed by using minimum distance criterion/maximum log-likelihood criterion.
The proposed Gamma tone energy/cepstral features and modelling techniques provide complementary evidence in assessing the performance of the system. This algorithm offers 96%, 79%, and 95.3% as weighted accuracy recall for the stress recognition system with respect to the classification done on emotion-specific group VQ/Fuzzy/MHMM/SVM models for GTF energy features with Gamma tone filters spaced in ERB, MEL and BARK scale respectively for the system evaluated for the EMO-DB database. Weighted accuracy recall is found to be 91%, 93% and 94% for the classification done on emotion-specific group models for GTF energy features with Gamma tone filters spaced in ERB, MEL and BARK scale respectively for the evaluation done on the utterances chosen from the SAVEE database. Gamma tone Cepstral features provide the overall accuracy of 92%, 90% and 92% for filters spaced in ERB, MEL and BARK scale for Berlin EMO-DB. Decision level fusion classification based on GTF energy features and modelling techniques provides the overall accuracy as 99.8% for EO-DB database and 100% for SAVEE database.
نمونه ترجمه مقاله:
- مقدمه
سیگنال های صوتی به عنوان سیگنال هایی در نظر گرفته می شوند که با همتابی ( کانوالو) اطلاعات تحریک و دستگاه صوتی به دست می آیند. این سیگنال ها حامل اطلاعاتی در رابطه با سن، جنسیت، وضعیت اجتماعی، لهجه و حالت احساسی گویشور و همچنین داده های زبانی می باشند. مجموعه داده های شامل این گفتار ها حاوی همین اطلاعات هستند که توسط مجموعه ای محدود از گویشور ها بیان شده است و همین محدودیت موجب شده است که نتوانیم سیستم های تشخیص احساس قوی را طراحی کنیم. احساسات توسط گویشور ها به روش های مختلفی بیان می شوند. مرکز های برون سپاری تجاری معتقد هستند که سیستم های شناسایی احساسات از روی گفتار بسیار مفید هستند، زیرا افرادی که در دفاتر آن ها کار می کنند ممکن است وقتی که تماس ها را پاسخ می دهند همیشه رفتار مشابهی نداشته باشند. به عنوان مثال، افرادی که در این دفتر ها کار می کنند ممکن است مریض باشند و یا این که گاهی احساس افسردگی داشته باشند. آن ها ممکن است نتوانند یک پاسخ مفید و صحیح را به سوالات فنی مشتریان بدهند. ازین رو، این سیستم خودش را مطابق با نیاز مشتری ها تنظیم می کند و یا این که کنترل تماس را به عامل های انسانی منتقل می کند تا یک پاسخ مناسب و مفید به مشتری ها ارائه شود. این سیستم های شناسایی احساسات می توانند در نیروگاه های صنعتی، برق و هسته ای که حضور فیزیکی انسان ها ممکن نیست هم مفید باشد. این سیستم ها می توانند در سیستم های خدمات درمانی و برای بیماران مبتلا به افسردگی و نگرانی نیز مفید باشند زیرا این سیستم ها می توانند تشخیص های صحیحی را ایجاد کنند. همچنین این سیستم ها در خدمات تعاملی وب ، بازیابی اطلاعات و تحلیل های پزشکی و ترکیب گفتار به متن نیز مفید هستند. این سیستم ها در تعامل انسان – روبات نیز می توانند نقش مفیدی را ایجاد کنند زیرا روبات ها مطابق با وضعیت احساسی عامل رفتار می کنند. علاوه بر این، می توان از ERS در دپارتمان های قانونی استفاده کرد تا حقیقت را تشخیص داد و همچنین می توان از آن برای ایجاد کردن محیط های یادگیری منعطف استفاده کرد. هدف استفاده از این سیستم های خودکار شناسایی احساسات، ایجاد کردن سیستم های خودکار برای درک وضعیت احساسی افراد با تحلیل پارامتر های استخراج شده از گفتار یک گویشور در حالت های احساسی مختلف می باشد. سپس، با استفاده از این روش تعامل های بین انسان – ماشین حالت واقعی، طبیعی و دوستانه خواهد داشت. این سیستم می تواند در زمینه ی پزشکی برای درمان و تشخیص افرادی که از نظر روانی مشکل دارند نیز مفید باشد. بنابراین، دکتر ها می توانند احساسات خودشان را درک کرده و در نتیجه خدمات درمانی مناسب را به آن ها ارائه کنند. بر اساس وضعیت احساسی بیماران، درمان با موسقی را می توان برای کاهش نگرانی، تنش و افسردگی برای آن ها مورد استفاده قرار داد. همچنین این روش برای سیستم های نظارت و یا آموزش نیز مفید می باشد زیرا می تواند موجب بهبود روند یادگیری دانش آموزان شود زیرا می تواند سبک ارائه ی مطالب را به صورت آنی اصلاح کند. بنابراین روند آموزش- یادگیری نیز موثر تر و تعاملی تر می شود. علاوه بر این، سیستم های شناسایی احساسات نقش محسوسی در پیش گیری از تصادفات خواهد داشت زیرا وضعیت احساسی