شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به کمک شبکه های عصبی – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:129
قالب بندی:word قابل ویرایش

نحوه خرید

شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به کمک شبکه های عصبی – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب
۱ چکیده
۲ مقدمه
فصل اول: اصول کلی در ایجاد حالت در گفتار و روشهای مختلف شناسایی حالت گفتار ……………………….. ۵
۱- ۱- ایجاد و بازشناسی حالت در گفتار ……………………… ۵
۱- ۱-۱- روابط صوتی حالت در گفتار انسانی ………………………….. ۵
۱- ۱-۲- ارزیابی با نمونههای انسانی …………………………………. ۷
۱- ۱-۳- بازشناسی حالت در گفتار انسانی ……………………………….. ۷
۱-۲- مقایسه الگوریتمهای شـبکه عصـبی ، K-NN، SVM و درخـت تصـمیم گیـری در سیسـتم هـای پاسخگوی صوتی متقابل ………………………………………… ۸

۱- ۲-۱- بازشناسی حالت ………………………………………. ۹
۱- ۲-۲- بانک اطلاعاتی ……………………………………………………. ۹
۱- ۲-۳- استخراج ویژگیها ……………………………………………… ۱۰
۱- ۲-۳-۱- ویژگیهای فرکانس گام …………………………………………….. ۱۰
۱- ۲-۳-۲- ویژگیهای انرژی ………………………………………………… ۱۰
۱- ۲-۳-۳- ویژگیهای طول زمان شنیداری…………………………….. ۱۱
۱- ۲-۴- گروهبندی و نتایج ……………………………………………… ۱۱
۱- ۳- استفاده از GMM ها برای بازشناسی حالت در گفتار روزمره ………………………….. ۱۴
۱- ۳-۱- نتایج …………………………………………………. ۱۶
۱- ۴- شناسایی و تشخیص حالت گفتار با استفاده از K-NN و شبکههای عصبی ………………………….. ۱۷
۱- ۴-۱- مراحل تحقیق …………………………………………… ۱۸
۱- ۴-۲-استخراج ویژگیها ……………………………….. ۱۹
۱- ۵- بازشناسی حالت با استفاده از آنالیز HMM ، SVM ، QDA و مقایسه آنها با یکدیگر …………….. ۲۰
۱- ۵-۱- فرآیند بازشناسی حالت …………………………… ۲۰
۱- ۵-۲- انتخاب و رتبهبندی ویژگیها …………………………. ۲۰
۱- ۵-۳- نتیجه ………………………………………. ۲۲
۱- ۶- بازشناسی حالت گفتار با استفاده از رای اکثریت کارشناسان زیرفضا …………………… ۲۲
۱- ۶-۱- استخراج ویژگیها …………………………. ۲۳
۱- ۷- بازشناسی حالات گفتار چندزبانه با استفاده از آنالیز مؤلفههای اصلی …………………. ۲۴
۱- ۷-۱- بازشناسی حالات ………………………………………. ۲۴
۱- ۷-۲- تفکیکپذیری حالات احساسی ……………………………………… ۲۵
۱- ۷-۳- بازشناسی حالت گفتار چند زبانه ………………………………………. ۲۶
۱- ۸- بازشناسی حالت در سیگنالهای بالقوه زیستی با استفاده از شبکههای عصبی و SVM ….ا…… ۲۶
۱- ۸-۱- جمعآوری دادههای حالتدار ……………………….. ۲۷
۱- ۸-۲- دستهکننده الگو ……………………………… ۲۷
۱- ۸-۳- بازشناسی حالت ……………………….. ۲۸
۱- ۹- بازشناسی حالت گفتار با استفاده از مدل مارکوف مخفی ……………………… ۲۸
۱- ۹-۱- استخراج پوش ویژگیهای خام ……………………. ۲۹
۱- ۹-۲- ویژگی عمومی با استفاده از GMM ها …………………………… ۲۹
۱- ۹-۳- مجموعه گفتار …………………….. ۳۰
۱- ۹-۴- نتایج …………………………. ۳۰
۱- ۱۰- بازشناسی حالت گفتار با استفاده از شبکه عصبی …………………………. ۳۰
۱- ۱۰- ۱- طراحی سیستم ………………………………………. ۳۱
۱- ۱۰- ۱-۱- حالت گفتار ………………………………. ۳۱
۱- ۱۰- ۱-۲- مفهوم مستقل از گوینده ……………………………. ۳۱
۱- ۱۰- ۱-۳- مراحل پردازش ……………………….. ۳۲
۱- ۱۰- ۱-۴-ساختار شبکه عصبی …………………………………………… ۳۳
۱- ۱۰- ۲- آزمایش بازشناسی حالت ……………………… ۳۴
۱- ۱۰- ۲-۱- پایگاه داده گفتار ……………………………………………. ۳۴
۱- ۱۰- ۲-۲- روشهای آموزش و آزمایش …………………… ۳۵
۱- ۱۰- ۲-۳- نتایج …………………………………… ۳۵
۱- ۱۱- مقایسه مدل فازی و شبکه عصبی در بازشناسی حالت گفتار با استفاده از آنالیز LPC ……..ا…. ۳۷
۱- ۱۱- ۱- بازشناسی کننده حالات ………………………… ۳۸
۱- ۱۱- ۲- آزمایش …………………………………. ۳۹
۱- ۱۱- ۳- نتایج ………………………………………….. ۴۰
۱- ۱۲- بازشناسی حالت گفتار با استفاده از تغییرات حالت چهره ………………………… ۴۱
فصل دوم: شبکه عصبی Fuzzy ARTMAP ……………..ا……………….. ۴۲
۲- ۱- استفاده از شبکه عصبی …………………………………….. ۴۲
۲- ۲- شرح شبکه ARTMAP ……….ا…………………………………….. ۴۳
۲- ۲-۱- Fuzzy ARTMAP ………………………….. 44

فصل سوم: بازشناسی چهار حالت گفتاری با استفاده از شبکه عصبی…………………. ۴۸
۳- ۱-مقدمات انجام پروژه …………………………………………….. ۴۸
۳- ۱-۱- گردآوری اطلاعات و دادههای مورد نیاز برای انجام پروژه ………………………….. ۴۸
۳- ۱-۲- شرایط و جملات ضبط شده …………………….. ۴۹
۳- ۱-۳- پردازش دادههای خام ……………………………….. ۵۹
۳- ۲- مشخصات شبکه عصبی مورد استفاده…………………….. ۶۰
۳- ۳- انتخاب حالتهای قابل بازشناسی …………………………. ۶۱
۳- ۴- انتخاب ویژگیها برای بازشناسی …………………………… ۶۲
۳- ۵- مشکلات بازشناسی حالت ……………………………………… ۶۵
۳- ۶- نتایج آزمایش حالتهای مختلف ……………….. ۶۷
۳- ۶-۱- آزمودن شبکه عصبی طراحی شده ……………………………….. ۶۸
۳- ۶-۲- بازشناسی چهار حالت با ۲۰ گوینده برای آموزش ………………….. ۶۹
۳- ۶-۳- بازشناسی سه حالت با ۲۰ گوینده برای آموزش ………………………. ۷۹
۳- ۶-۴- تاثیر تعداد دادههای آموزشی و آزمایشی ……………………… ۸۵
۳- ۶-۴-۱- بازشناسی چهار حالت با ۱۹ گوینده برای آموزش ……………………….. ۸۵
۳- ۶-۴-۲- بازشناسی چهار حالت با ۱۸ گوینده برای آموزش ……………………… ۸۸
۳- ۶-۵- بازشناسی چهار حالت با ۵۲ ویژگی ………………………………. ۸۹
۳- ۷- تاثیر پارامترهای مختلف روی حالتهای مختلف ………………………….. ۹۶

فصل چهارم : جمعبندی ……………………………………. ۹۷
منابع ……………………………… ۹۸

چکیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش استفاده از چنین تکنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشکلات موجود در این کار که تشخیص را سختتر میکند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در نهایت برخی کاربردهای آن نیز مورد بررسی قرار میگیرد. در این تحقیق از شبکه های عصبیARTMAP فازی برای شناسایی چهار حالت عادی، خشم، شادی، و پرسشی و با استفاده از ۵۲ ویژگی استفاده شده است. نتایج نشان میدهد که شبکههای عصبی میتوانند بهعنوان یک دستهبندی کننده خوب برای شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر شده دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
بر این اساس دقت شناسایی حالت برای حالت عادی %۷۶/۸۷، برای حالت سوالی %۷۴/۵۱، حالت شادی %۱۳/۷۶ و حالت خشم %۶۵/۹۳ بدست آمد.

مقدمه
چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمعآوری دانش و اطلاعات در این زمینه پرداختند. این مسئله موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را برانگیخته است.
که بعضی از دلایل آن عبارتند از:
پیشرفت فناوری در ثبت، ذخیره و تحلیل اطلاعات صوتی و تصویری، بالا رفتن سطح فناوری ارتباط انسان و رایانه از نقطه و کلیک به حس و عاطفه و نرمافزارهای زندهوار مخصوص کمک به انسان و روباتهای حیوان شکل خانگی از قبیل FURBIهای شرکت تایگر، AIBOهای شرکت سونی که قادر به درک و بیان احساسات میباشند. به تازگی زمینههای تحقیقاتی جدیدی در هوش مصنوعی تحت عنوان محاسبه عاطفی ایجاد شده است. درحوزه رمزگشایی و توصیف و به تصویر کشیدن حالات در گفتار، تاکنون روانشناسان به آزمایشات تجربی بسیاری دست زده و فرضیههایی ارائه دادهاند. از طرف دیگر محققان هوش مصنوعی نیز در شاخههای زیر تحقیقات ارزندهای انجام دادهاند:
ساخت و ترکیب حالات گفتار، بازشناسی حالات گفتار و استفاده از نرمافزارهایی برای رمزگشایی و بیان حالات استفاده میشوند. هدف، تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که درتجارت، یک کاربرد بالقوه آن، میتواند تشخیص حالت گفتاری، در یک مکالمه تلفنی و ایجاد فیدبک به یک اپراتور یا سرپرست، به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان شده توسط تماس گیرنده میباشد. کاربردی دیگر از آن، استفاده از محتوای حالت احساسی مکالمات، جهت ارزیابی عملکرد اپراتور است.
شناسایی خودکارحالت گفتار، با توجه با حالات صورت، حرکات بدن و یا ویژگیهای گفتار یکی از روشهای بازشناسی حالت گفتار میباشد. بخصوص در زمینه سیستمهای امنیتی علاقهمندیهای بسیاری مشاهده شده است.
حال باید دید، منظور از حالت در گفتار چیست؟ اگر تاکنون در چند سخنرانی شرکت کرده باشید خواهید دید که برخی از سخنرانیها جذاب و برخی خستهکننده میباشند. این مشکل علاوه بر موضوع سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک روبات خواهد بود، که باعث خوابآلودگی شنونده میشود. بنابراین سخنرانان حرفهای با تغییر آهنگ گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر میدهند. این تغییرات در نحوه بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت عادی و یکنواخت بعنوان یک حالت شناخته میشود. حالات مختلف از قبیل: خشم، تنفر، ترس، شادی، غم، هیجان، آرامش، کسالت، افسردگی و … میباشند. حتی در برخی از مواقع در مورد میزان یک حالت بحث میشود، مثلا شاد با خیلی شاد در نظر گرفته میشود. اضافه کردن حالت عادی به این حالتها معقول بنظر میرسد تا هر کدام از این حالتها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کارها مبنا حالت عادی و بدون حالت میباشد. این طبقهبندی بعنوان اساس مقایسه ا ستفاده میشود. امروزه آمار عمومی از یک عبارت بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.
برای اطمینان از تشخیص صحیح، معقول است که تعداد و نوع حالتهای قابل تشخیص محدود و متناسب با نیاز در آن کاربرد خاص باشد(برای طبقهبندی مناسب). هنوز بصورت فنی هیچ استاندارد مشخصی برای تشخیص و طبقهبندی حالتهای گفتار موجود نیست. اغلب تمیز دادن، میان یک مجموعه تعریف شده از حالتهای گفتار مجزا است، و برای تعداد و اسامی آنها ایدهء یکسانی موجود نیست. از طرفی این تحقیقات در هر زبان و لهجهای خاص خود میباشد و چنانچه برای سایر زبانها استفاده شود، دقت بازشناسی کاهش مییابد. مثلا نمیتوان سیستمی که برای زبان انگلیسی طراحی شده است را برای زبان فارسی بکار برد. زیرا پایگاه دادهای که برای زبان انگلیسی طراحی شده ویژگیهای خاص خود را دارد که برای زبان فارسی متفاوت است و کاربردی ندارد. البته ممکن است الگوریتم کاری آنها مشابه باشد.
افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط برقرار میکنند. و اهمیت آن در برخی مواقع بیش از اطلاعات کلامی میباشد. با افزایش اهمیت اطلاعات غیر کلامی در زمینه رابطه انسان با ماشین، مدتی است که این امر بعنوان موضوع تحقیقی در حوزه مهندسی مورد بحث و بررسی قرار گرفته است. اگر رایانهای بتواند هیجانات و حالات انسانی را بهخوبی خود انسانها درک کند رابطه فوق بهبود خواهد داشت.
برای مثال، رابطه میان انسان و رایانه را میتوان به گونهای ترتیب داد که واکنشهایی که در برابر کاربران نشان میدهند، برحسب حالات عاطفی کاربر باشد. برای آگاهی از اینکه در یک عبارت چه نوع حالتی نهفته است، ترکیبی از فونتیکها (آواشناسیها)، و فیزیولوژی تکنولوژی بازشناسی حالت میتواند مبنایی برای یک مدل صوتی(گفتار) آماده سازد، که بتواند کیفیت بازشناسی و سنتز گفتار را بهبود دهد.
برخی کاربردهای مهم دیگر برای تکنولوژی بازشناسی حالات شامل سیستم گفتگوی اتوماتیک در مراکز تلفن و برخی استفادههای ویژه برای افراد ناتوان و پیر نیز میتوان نام برد. امروزه تحقیق حالت در گفتار بطور عمده بر نمونههای تک زبانه متمرکز شده و کمتر در زمینه چند زبانه کار شده است. نوای گفتار یک نمایشگر اولیه اطلاعات حالت گوینده است.
راهحلهای بازشناسی حالت بستگی به حالتهایی دارد که دستگاه میخواهد بازشناسی نماید. همچنین علاقهمندی به کاربرد تکنولوژیهای بازشناسی حالت برای سیستمهای پاسخگویی صوتی متقابل، مخصوصا برای مراکز تلفن میباشد. این سیستمها محاوره ای و از این رو جملات معمولا کوتاه هستند.
برای طبیعیتر بودن مسئله، مسیرتحقیق بازشناسی حالت از آنالیز گفتار ناآگاهانه گرفته میشود. حرکت بعدی، معمولاً تلاش برای افزایش عملکرد سیستمهای رابط ماشین و انسان مانند خدمات تلفنی کنترل صوتی است.
از مشکلات حالات ناآگاهانه در مقایسه با گفتارحقیقی برچسبزنـی آنهـا اسـت ، زیـرا دانسـتن حـالاتحقیقی بطور قطعی غیر ممکن میشود.
مقایسه عملکرد بازشناسی حالت بدلیل نبود پایگاه داده مشترک سخت است. نتایج دستههای حالت پایه مشترک، وابستگی به گوینده، حرفهای یا مردمان عادی، سن فرد گوینده، محیط ضبط صدا، یا نوع جملات و (کلمات یا عبارات) را در پایگاه داده باید در نظر گرفت. مشکل میتوان گفت که کدام سیستم در کل بهتر است. عملکرد بازشناسی حالت تا حد زیادی وابسته به این است که چگونه میتوان ویژگی -های مناسب مستقل از گوینده، زبان و متن را استخراج کرد.
برای بازشناسی از شبکههای هوشمند استفاده میشود که از آن جمله شبکههای عصبی مصنوعی، مدل-های مارکوف مخفی، مدلهای مخلوطکننده گوسی، درختهای تصمیمگیری، ماشینهای بردار پشتیبان، آنالیز تفکیککننده خطی، آنالیز تفکیککننده درجه دوم و … میباشد.
در ادامه نتایج چند تحقیق که از روشهای مختلف برای منظورهای متفاوت استفاده کرده است، بررسی شده و برخی نکات دیگر در آنها مطرح خواهد شد.

جمعبندی
همانگونه که دیده شد، میتوان از الگوریتمها و روشهای مختلفی برای بازشناسی حالات استفاده کرد، که در هر مسئله با یکی از این الگوریتم ها میتوان به بهترین نتایج رسید. بنابراین نمیتوان گفت که کدام الگوریتم همیشه بهترین نتایج را ارائه میدهد.
از طرفی مشاهده شد که، هر چه تعداد حالات مورد درخواست جهت انتقال و بازشناسی کمتر باشند، نتایج دقیقتری حاصل میشود. همچنین از لحاظ هزینه نیز معقولتر است. اما نمیتوان گفت که افراد همیشه دارای یک سری حالات خاصی هستند. از طرفی نمیتوان از تمامی ویژگیهای صوتی برای بازشناسی حالات گفتار استفاده کرد، زیرا: اولا، مقرون به صرفه نیست. و ثانیا، برای شرایط بازشناسی زمان واقعی، محاسبات زیاد شده و دچار خطا میشود. بنابراین باید برای یافتن ویژگیهای بهینه جستجو کرد، که در اکثر تحقیقات معلوم شده است که ویژگیهای نوای گفتار، فرکانس گام ، فرکانس های فرمنت و انرژی کارآمدترند و لزومی ندارد از تمامی ویژگیها استفاده شود.
همچنین میتوان دریافت که همواره نرخ بازشناسی در حالت مستقل از گوینده که بیشتر مطلوب است، کمتر از حالت وابسته به گوینده است، که این امر نیز طبیعی است.
با توجه به تحقیق فوق میتوان دریافت که همواره بیشتر شدن تعداد ویژگیها منجر به بازشناسی بهتر نخواهد شد. زیرا گاهی اوقات برخی از ویژگیهای اضافه شده اثر منفی داشته که نبود آنها بهتر نیز می- باشد، چنانچه در فوق مشاهده شد، با ازای ۵۲ ویژگی، نتایج ضعیفتری نسبت به زمانیکه تنها از ۲۷ ویژگی منتخب استفاده شد، حاصل شد. گاهی اوقات نیز ممکن است دو دسته ویژگی که به تنهایی نتایج نسبتا مناسبی دارند، بعد از ترکیب نتایج ضعیفتری ارائه دهند. علت این امر این است که به هنگام آموزش، شبکه ممکن است نتواند بین دو دسته مورد بحث رابطه مناسبی پیدا کند و در نتیجه منجر به گم کردن هدف خواهد شد.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت

آخرین مطالب

مطالب مرتبط