عنوان فارسی:دانلود ترجمه مقاله شناسایی گوینده در گفتار نجوایی
دانلود ترجمه مقاله شناسایی گوینده در گفتار نجوایی – اسپرینگر ۲۰۱۸:ما از توصیف کننده های صوتی با عملکرد در الگوریتم انتخاب ترکیبی استفاده کردیم تا بتوانیم گفتار عادی و نجوایی را تشخیص دهیم . مشخص شد که ویژگی های انتخاب شده از نظر توانایی تشخیص بین گویشور های مختلف، مناسب هستند. تحلیل همبستگی نیز نشان داد که ویژگی ها برای یک گویشور مشابه و برای گویشور های مختلف متفاوت هستند. نتایج با ترکیب ویژگی های طنین با نام های نرخ عبور صفر، افت، بی نظمی، شفافیت و میزان تندی و فرکانس Mel در سه حالت تمرین و تست محاسبه شده اند، یعنی حالت ۱) خنثی – خنثی ۲) نجوا – نجوا و ۳) خنثی – نجوا . اما، هدف ما تمرین خنثی و تست نجوا برای شناسایی می باشد. ویژگی های طنین ۶% افزایش در صحت شناسایی را در مقایسه با ویژگی های MFCC برای ۳۵ گویشور با شرایط خنثی – نجوا ایجاد کردند.
عنوان فارسی مقاله: |
شناسایی گوینده در گفتار نجوایی: تحقیق در مورد ویژگی های تيمبرل و اندازه فاصله KNN |
عنوان انگلیسی مقاله: | |
سال انتشار میلادی: | 2018 |
نشریه: |
اسپرینگر مجله بین المللی تکنولوژی گفتار – International Journal of Speech Technology |
کلمات کلیدی فارسی: |
شناسایی گویشور، توصیف گر طنین صوتی، گفتار نجوایی، تابع فاصله، نزدیک ترین همسایه K، ماتریس آمیختگی
|
کلمات کلیدی انگلیسی: |
Speaker identification, Timbrel audio descriptors, Whispering speech, Distance function, K-Nearest neighbor, Confusion matrix |
تعداد صفحات ترجمه شده: | ۲۰ صفحه با فونت ۱۴ B Nazanin |
نویسندگان: |
V. M. Sardar, S. D. Shirbahadurkar
|
موضوع: | مهندسی الگوریتم ها و محاسبات، هوش مصنوعی |
دسته بندی رشته: | مهندسی کامپیوتر |
فرمت فایل انگلیسی: | 9 صفحه با فرمت pdf |
فرمت فایل ترجمه شده: | Word |
کیفیت ترجمه: | عالی |
نوع مقاله: | isi |
تعداد رفرنس: |
مقاله انگلیسی+ترجمه فارسی
فهرست مطالب
چکیده
۱- مقدمه
۲- توصیف سیستم
۲-۱ دیتابیس گویشور
۲-۲ الگوریتم ترکیبی انتخاب ویژگی ها
۲-۳ توصیف کننده های صوتی انتخاب شده
۲-۴ طبقه بندی کننده نزدیک ترین همسایه K (KNN)
۳- نتایج
۳-۱ صحت شناسایی برای حالت های مختلف کلام همراه با ویژگی های مختلف و توابع فاصله و برای افزایش تعداد ویژگی ها
۳-۲ ماتریس در هم ریختگی
۴- جمع بندی
چکیده
شناسایی گویشور از گفتار نجوایی، در زمینه ی علوم قانونی و بسیاری دیگر از کاربرد ها، دارای اهمیت بسیار زیادی می باشد. گفتار نجوایی از نظر مشخصات، نسبت به گفتار عادی تغییرات زیاد و مهمی را دارد. ازین رو وظیفه ی شناسایی با استفاده از این گفتار دشوار می شود. این مقاله، روش استفاده از ویژگی های طنین با عملکرد خوب از طریق روش انتخاب هیبریدی ( ترکیبی) و تاثیر معیار های فاصله ای مورد استفاده در کلاسیفایر KNN بر روی صحت شناسایی را ارائه می کند. نتایج استفاده از ویژگی های طنین با ویژگی های MFCC مقایسه شده است ؛ صحت مورد اول از روش دوم بیشتر می باشد. کلاسیفایر KNN با محتمل ترین تابع فاصله برای دیتابیس گفتار نجوایی مانند Euclidean و City-block با یکدیگر مقایسه شده اند. ترکیب ویژگی های طنین و کلاسیفایر KNN با تابع فاصله ی City Block ، بیشترین صحت شناسایی را برای ما ایجاد کرد.
Abstract
Speaker identification from the whispered speech is of great importance in the field of forensic science as well as in many other applications. Whispered speech shows many changes in the characteristics to its neutral counterpart. Hence the task of identification becomes difficult. This paper presents the use of only well-performing timbrel features selected by Hybrid selection method and effect of distance measures used in KNN classifier on the identification accuracy. The results using timbrel features are compared with MFCC features; the accuracy with the former is observed higher. KNN classifier with most probable distance function suitable for a whispered database like Euclidean and City-block are also compared. The combination of timbrel features and KNN classifiers with city block distance function have reported the highest identification accuracy.
نمونه ترجمه مقاله:
- مقدمه
تحلیل گویشور شامل کاربرد هایی مانند شناسایی / تایید ، مشخص کردن گروه های سنی و جنسیتی ، لهجه ، گویش و غیره می باشد. در هر تحلیل مستقل از متن در رابطه با گویشور، باید صدای گویشور با استفاده از بعضی از پارامتر های خاص که با نام ویژگی شناخته می شوند، توصیف شود. تولید صدای واکدار عادی به عنوان یک منبع مهم برای توصیف و یا مدل سازی گویشور مورد استفاده قرار می گیرد ؛ زیرا یک سری اطلاعات رزونانس غنی در سیگنال های دوره ای با انرژی بالا وجود دارد. اما در رابطه با گویش نجوایی، آشفتگی هوا بدون لرزش تار آوا موجب می شود که شرایط عمومی تولید صدا تغییر کند. این موضوع مهم ترین دشواری در میان دیگر دلایلی است که در مقالات مرتبط با شناسایی گویشور نجوایی مطرح شده است. تغییرات محسوسی بین نجوا و گفتار عادی از نظر حالت تناوبی، مکان فورمنت ها ، و شرایط مرزی شیب برای مکان حروف صدادار وجود دارد. اما، مشخص شده است که تلاش های آوایی در شرایط نجوا، موجب ایجاد آشفتگی زیاد در همخوان های بی واک نمی شود. ازین رو، بخش بی واک در گفتار عادی و گفتار نجوایی مهم ترین نقش برای شناسایی گویشور در سناریو گفتار عادی – نجوایی ایفا می کند. دوما، گویشور ها به سختی می توانند برای مدت زمان طولانی به حالت نجوایی صحبت کنند ( بیشتر از 30 ثانیه). ثابت شده است که برای 1) مدت زمان طولانی حالت نجوایی و 2 ) مدت زمان کوتاه گفتار عادی ( بدون نجوا) در مقایسه با 3) مدت زمان کوتاه گفتار نجوایی نتایج خوبی به دست می آید. بنابراین نجوا های طولانی تر ( 2 تا 3 ثانیه) شامل بخش هایی از تولید صدای واک دار ناقص می باشند و ازین رو موجب افزایش صحت شناسایی گویشور می شود.
موفقیت شناسایی گویشور در گفتار نجوایی در اصل مبتنی بر عوامل زیر می باشد :
کیفیت ضبط گفتار نجوایی ( نسبت سیگنال به نوفه) یک SNR با مقدار 10 دسی بل یا بالاتر ، برای شناسایی بهتر گویشور مناسب می باشد. ازین رو باید نجوا در یک محیط بدون نوفه ضبط شود. نمونه های گفتار نجوایی و عادی که در دیتابیس CHAIN مورد استفاده قرار گرفته اند، دارای SNR بالاتر از 15 دسی بل هستند. همچنین مدت زمان ضبط ها نیز برای به دست آوردن نتایج شناسایی مناسب، در حد 2 تا 3 ثانیه می باشد.
انتخاب ویژگی ها MFCC ب صورت گسترده دز آزمایش های شناسایی گویشور در دیتابیس هایی که گفتار های عادی در آن وجود دارند، مورد استفاده قرار می گیرند. در این قسمت ، ما از از ویژگی های محدود طنینی با عملکرد خوب استفاده می کنیم که این ویژگی ها چند بعدی بوده و به صورت ادراکی انگیخته شده اند.
انتخاب کلاسیفایر کلاسیفایر KNN در این مطالعه برای طبقه بندی داده ها مورد استفاده قرار گرفته است. انتخاب تعداد نزدیک ترین همسایه های k و معیار های فاصله، عوامل مهمی هستند که در این مطالعه در نظر گرفته شده است. مقدار بهینه ی k ، مبتنی بر دیتابیس مورد استفاده می باشد. بهترین معیار های فاصله اصطلاحا با نام های Euclidean ( اقلیدسی) و City-Block ( بلوک شهر) در این مطالعه مورد استفاده قرار گرفته اند.