شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به کمک شبکه های عصبی – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:129
قالب بندی:word قابل ویرایش

نحوه خرید

شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به کمک شبکه های عصبی – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب
1 چكيده
2 مقدمه
فصل اول: اصول كلي در ايجاد حالت در گفتار و روشهاي مختلف شناسايي حالت گفتار ……………………….. 5
1- 1- ايجاد و بازشناسي حالت در گفتار ……………………… 5
1- 1-1- روابط صوتي حالت در گفتار انساني ………………………….. 5
1- 1-2- ارزيابي با نمونههاي انساني …………………………………. 7
1- 1-3- بازشناسي حالت در گفتار انساني ……………………………….. 7
1-2- مقايسه الگوريتمهاي شـبكه عصـبي ، K-NN، SVM و درخـت تصـميم گيـري در سيسـتم هـاي پاسخگوي صوتي متقابل ………………………………………… 8

1- 2-1- بازشناسي حالت ………………………………………. 9
1- 2-2- بانك اطلاعاتي ……………………………………………………. 9
1- 2-3- استخراج ويژگيها ……………………………………………… 10
1- 2-3-1- ويژگيهاي فركانس گام …………………………………………….. 10
1- 2-3-2- ويژگيهاي انرژي ………………………………………………… 10
1- 2-3-3- ويژگيهاي طول زمان شنيداري…………………………….. 11
1- 2-4- گروهبندي و نتايج ……………………………………………… 11
1- 3- استفاده از GMM ها براي بازشناسي حالت در گفتار روزمره ………………………….. 14
1- 3-1- نتايج …………………………………………………. 16
1- 4- شناسايي و تشخيص حالت گفتار با استفاده از K-NN و شبكههاي عصبي ………………………….. 17
1- 4-1- مراحل تحقيق …………………………………………… 18
1- 4-2-استخراج ويژگيها ……………………………….. 19
1- 5- بازشناسي حالت با استفاده از آناليز HMM ، SVM ، QDA و مقايسه آنها با يكديگر …………….. 20
1- 5-1- فرآيند بازشناسي حالت …………………………… 20
1- 5-2- انتخاب و رتبهبندي ويژگيها …………………………. 20
1- 5-3- نتيجه ………………………………………. 22
1- 6- بازشناسي حالت گفتار با استفاده از راي اكثريت كارشناسان زيرفضا …………………… 22
1- 6-1- استخراج ويژگيها …………………………. 23
1- 7- بازشناسي حالات گفتار چندزبانه با استفاده از آناليز مؤلفههاي اصلي …………………. 24
1- 7-1- بازشناسي حالات ………………………………………. 24
1- 7-2- تفكيكپذيري حالات احساسي ……………………………………… 25
1- 7-3- بازشناسي حالت گفتار چند زبانه ………………………………………. 26
1- 8- بازشناسي حالت در سيگنالهاي بالقوه زيستي با استفاده از شبكههاي عصبي و SVM ….ا…… 26
1- 8-1- جمعآوري دادههاي حالتدار ……………………….. 27
1- 8-2- دستهكننده الگو ……………………………… 27
1- 8-3- بازشناسي حالت ……………………….. 28
1- 9- بازشناسي حالت گفتار با استفاده از مدل ماركوف مخفي ……………………… 28
1- 9-1- استخراج پوش ويژگيهاي خام ……………………. 29
1- 9-2- ويژگي عمومي با استفاده از GMM ها …………………………… 29
1- 9-3- مجموعه گفتار …………………….. 30
1- 9-4- نتايج …………………………. 30
1- 10- بازشناسي حالت گفتار با استفاده از شبكه عصبي …………………………. 30
1- 10- 1- طراحي سيستم ………………………………………. 31
1- 10- 1-1- حالت گفتار ………………………………. 31
1- 10- 1-2- مفهوم مستقل از گوينده ……………………………. 31
1- 10- 1-3- مراحل پردازش ……………………….. 32
1- 10- 1-4-ساختار شبكه عصبي …………………………………………… 33
1- 10- 2- آزمايش بازشناسي حالت ……………………… 34
1- 10- 2-1- پايگاه داده گفتار ……………………………………………. 34
1- 10- 2-2- روشهاي آموزش و آزمايش …………………… 35
1- 10- 2-3- نتايج …………………………………… 35
1- 11- مقايسه مدل فازي و شبكه عصبي در بازشناسي حالت گفتار با استفاده از آناليز LPC ……..ا…. 37
1- 11- 1- بازشناسي كننده حالات ………………………… 38
1- 11- 2- آزمايش …………………………………. 39
1- 11- 3- نتايج ………………………………………….. 40
1- 12- بازشناسي حالت گفتار با استفاده از تغييرات حالت چهره ………………………… 41
فصل دوم: شبكه عصبي Fuzzy ARTMAP ……………..ا……………….. 42
2- 1- استفاده از شبكه عصبي …………………………………….. 42
2- 2- شرح شبكة ARTMAP ……….ا…………………………………….. 43
2- 2-1- Fuzzy ARTMAP ………………………….. 44

فصل سوم: بازشناسي چهار حالت گفتاري با استفاده از شبكه عصبي…………………. 48
3- 1-مقدمات انجام پروژه …………………………………………….. 48
3- 1-1- گردآوري اطلاعات و دادههاي مورد نياز براي انجام پروژه ………………………….. 48
3- 1-2- شرايط و جملات ضبط شده …………………….. 49
3- 1-3- پردازش دادههاي خام ……………………………….. 59
3- 2- مشخصات شبكه عصبي مورد استفاده…………………….. 60
3- 3- انتخاب حالتهاي قابل بازشناسي …………………………. 61
3- 4- انتخاب ويژگيها براي بازشناسي …………………………… 62
3- 5- مشكلات بازشناسي حالت ……………………………………… 65
3- 6- نتايج آزمايش حالتهاي مختلف ……………….. 67
3- 6-1- آزمودن شبكه عصبي طراحي شده ……………………………….. 68
3- 6-2- بازشناسي چهار حالت با 20 گوينده براي آموزش ………………….. 69
3- 6-3- بازشناسي سه حالت با 20 گوينده براي آموزش ………………………. 79
3- 6-4- تاثير تعداد دادههاي آموزشي و آزمايشي ……………………… 85
3- 6-4-1- بازشناسي چهار حالت با 19 گوينده براي آموزش ……………………….. 85
3- 6-4-2- بازشناسي چهار حالت با 18 گوينده براي آموزش ……………………… 88
3- 6-5- بازشناسي چهار حالت با 52 ويژگي ………………………………. 89
3- 7- تاثير پارامترهاي مختلف روي حالتهاي مختلف ………………………….. 96

فصل چهارم : جمعبندي ……………………………………. 97
منابع ……………………………… 98

چكيده
در سالهاي اخير، شناخت حالات گفتار انساني بعلت تنوع كاربردهاي آن، موجب افزايش استفاده از چنين تكنولوژي شده است. در اين تحقيق ابتدا تعريفي از حالت ارائه شده، سپس به برخي مشكلات موجود در اين كار كه تشخيص را سختتر ميكند پرداخته و راهحلهاي متفاوت ارائه شده در اين زمينه معرفي ميشود. بعد از آن به الگوريتمها و روشهاي ارائه شده در زمينه بازشناسي حالت در گفتار پرداخته و چند نمونه از تحقيقاتي كه در اين زمينه صورت گرفته ارائه شده است. همچنين به برخي مزايا و معايب هر روش و اينكه هر كدام از اين روشها براي چه شرايطي مفيدترند نيز، اشاره خواهد شد. در نهايت برخي كاربردهاي آن نيز مورد بررسي قرار ميگيرد. در اين تحقيق از شبكه هاي عصبيARTMAP فازي براي شناسايي چهار حالت عادي، خشم، شادي، و پرسشي و با استفاده از 52 ويژگي استفاده شده است. نتايج نشان ميدهد كه شبكههاي عصبي ميتوانند بهعنوان يك دستهبندي كننده خوب براي شناسايي حالت گفتار استفاده شوند. نتايج اين روشها زماني بهتر خواهد بود كه حالت گفتار ذكر شده داراي تفاوتهاي قابل توجهي نسبت به ساير حالات باشد.
بر اين اساس دقت شناسايي حالت براي حالت عادي %76/87، براي حالت سوالي %74/51، حالت شادي %13/76 و حالت خشم %65/93 بدست آمد.

مقدمه
چارلز داروين نخستين كتاب درباره بيان احساسات انسان و حيوان را در قرن نوزدهم نگاشت. پس از اين اثر مهم روانشناسان و متخصصان هوش مصنوعي به تدريج به جمعآوري دانش و اطلاعات در اين زمينه پرداختند. اين مسئله موج جديدي از توجه روانشناسان و متخصصان هوش مصنوعي را برانگيخته است.
كه بعضي از دلايل آن عبارتند از:
پيشرفت فناوري در ثبت، ذخيره و تحليل اطلاعات صوتي و تصويري، بالا رفتن سطح فناوري ارتباط انسان و رايانه از نقطه و كليك به حس و عاطفه و نرمافزارهاي زندهوار مخصوص كمك به انسان و روباتهاي حيوان شكل خانگي از قبيل FURBIهاي شركت تايگر، AIBOهاي شركت سوني كه قادر به درك و بيان احساسات ميباشند. به تازگي زمينههاي تحقيقاتي جديدي در هوش مصنوعي تحت عنوان محاسبه عاطفي ايجاد شده است. درحوزه رمزگشايي و توصيف و به تصوير كشيدن حالات در گفتار، تاكنون روانشناسان به آزمايشات تجربي بسياري دست زده و فرضيههايي ارائه دادهاند. از طرف ديگر محققان هوش مصنوعي نيز در شاخههاي زير تحقيقات ارزندهاي انجام دادهاند:
ساخت و تركيب حالات گفتار، بازشناسي حالات گفتار و استفاده از نرمافزارهايي براي رمزگشايي و بيان حالات استفاده ميشوند. هدف، تحقيق و كاوش در راههاي استفاده از بازشناسي حالات گفتار است كه درتجارت، يك كاربرد بالقوه آن، ميتواند تشخيص حالت گفتاري، در يك مكالمه تلفني و ايجاد فيدبك به يك اپراتور يا سرپرست، به منظور نمايش باشد. كاربرد ديگر آن ذخيره پيامهاي صوتي طبق حالت بيان شده توسط تماس گيرنده ميباشد. كاربردي ديگر از آن، استفاده از محتواي حالت احساسي مكالمات، جهت ارزيابي عملكرد اپراتور است.
شناسايي خودكارحالت گفتار، با توجه با حالات صورت، حركات بدن و يا ويژگيهاي گفتار يكي از روشهاي بازشناسي حالت گفتار ميباشد. بخصوص در زمينه سيستمهاي امنيتي علاقهمنديهاي بسياري مشاهده شده است.
حال بايد ديد، منظور از حالت در گفتار چيست؟ اگر تاكنون در چند سخنراني شركت كرده باشيد خواهيد ديد كه برخي از سخنرانيها جذاب و برخي خستهكننده ميباشند. اين مشكل علاوه بر موضوع سخنراني به نحوه بيان سخنران نيز بستگي دارد. اگر سخنران گفتاري يكنواخت داشته باشد همانند يك روبات خواهد بود، كه باعث خوابآلودگي شنونده ميشود. بنابراين سخنرانان حرفهاي با تغيير آهنگ گفتار خويش و با حركات به موقع دست، سر و بدن خويش، با تاكيد روي برخي كلمات، بيان برخي جملات با تعجب برخي با افسوس و… حال و هواي سخنراني را تغيير ميدهند. اين تغييرات در نحوه بيان جملات و كلمات را “حالت در گفتار” گويند. بعبارت ديگر اداي جملات به هر شكلي غير از حالت عادي و يكنواخت بعنوان يك حالت شناخته ميشود. حالات مختلف از قبيل: خشم، تنفر، ترس، شادي، غم، هيجان، آرامش، كسالت، افسردگي و … ميباشند. حتي در برخي از مواقع در مورد ميزان يك حالت بحث ميشود، مثلا شاد با خيلي شاد در نظر گرفته ميشود. اضافه كردن حالت عادي به اين حالتها معقول بنظر ميرسد تا هر كدام از اين حالتها درك شوند. يعني براي در نظر گرفتن يك حالت جديد يك سري تغييرات بايد نسبت به يك مبدا وجود داشته باشد و در اينگونه كارها مبنا حالت عادي و بدون حالت ميباشد. اين طبقهبندي بعنوان اساس مقايسه ا ستفاده ميشود. امروزه آمار عمومي از يك عبارت بعنوان اساس كار است، اگر چه سعي در استفاده از ويژگيهاي ذاتي موجود را دارند.
براي اطمينان از تشخيص صحيح، معقول است كه تعداد و نوع حالتهاي قابل تشخيص محدود و متناسب با نياز در آن كاربرد خاص باشد(براي طبقهبندي مناسب). هنوز بصورت فني هيچ استاندارد مشخصي براي تشخيص و طبقهبندي حالتهاي گفتار موجود نيست. اغلب تميز دادن، ميان يك مجموعه تعريف شده از حالتهاي گفتار مجزا است، و براي تعداد و اسامي آنها ايدهء يكساني موجود نيست. از طرفي اين تحقيقات در هر زبان و لهجهاي خاص خود ميباشد و چنانچه براي ساير زبانها استفاده شود، دقت بازشناسي كاهش مييابد. مثلا نميتوان سيستمي كه براي زبان انگليسي طراحي شده است را براي زبان فارسي بكار برد. زيرا پايگاه دادهاي كه براي زبان انگليسي طراحي شده ويژگيهاي خاص خود را دارد كه براي زبان فارسي متفاوت است و كاربردي ندارد. البته ممكن است الگوريتم كاري آنها مشابه باشد.
افراد با استفاده از اطلاعات حالت يا عاطفي راحتتر با يكديگر ارتباط برقرار ميكنند. و اهميت آن در برخي مواقع بيش از اطلاعات كلامي ميباشد. با افزايش اهميت اطلاعات غير كلامي در زمينه رابطه انسان با ماشين، مدتي است كه اين امر بعنوان موضوع تحقيقي در حوزه مهندسي مورد بحث و بررسي قرار گرفته است. اگر رايانهاي بتواند هيجانات و حالات انساني را بهخوبي خود انسانها درك كند رابطه فوق بهبود خواهد داشت.
براي مثال، رابطه ميان انسان و رايانه را ميتوان به گونهاي ترتيب داد كه واكنشهايي كه در برابر كاربران نشان ميدهند، برحسب حالات عاطفي كاربر باشد. براي آگاهي از اينكه در يك عبارت چه نوع حالتي نهفته است، تركيبي از فونتيكها (آواشناسيها)، و فيزيولوژي تكنولوژي بازشناسي حالت ميتواند مبنايي براي يك مدل صوتي(گفتار) آماده سازد، كه بتواند كيفيت بازشناسي و سنتز گفتار را بهبود دهد.
برخي كاربردهاي مهم ديگر براي تكنولوژي بازشناسي حالات شامل سيستم گفتگوي اتوماتيك در مراكز تلفن و برخي استفادههاي ويژه براي افراد ناتوان و پير نيز ميتوان نام برد. امروزه تحقيق حالت در گفتار بطور عمده بر نمونههاي تك زبانه متمركز شده و كمتر در زمينه چند زبانه كار شده است. نواي گفتار يك نمايشگر اوليه اطلاعات حالت گوينده است.
راهحلهاي بازشناسي حالت بستگي به حالتهايي دارد كه دستگاه ميخواهد بازشناسي نمايد. همچنين علاقهمندي به كاربرد تكنولوژيهاي بازشناسي حالت براي سيستمهاي پاسخگويي صوتي متقابل، مخصوصا براي مراكز تلفن ميباشد. اين سيستمها محاوره اي و از اين رو جملات معمولا كوتاه هستند.
براي طبيعيتر بودن مسئله، مسيرتحقيق بازشناسي حالت از آناليز گفتار ناآگاهانه گرفته ميشود. حركت بعدي، معمولاً تلاش براي افزايش عملكرد سيستمهاي رابط ماشين و انسان مانند خدمات تلفني كنترل صوتي است.
از مشكلات حالات ناآگاهانه در مقايسه با گفتارحقيقي برچسبزنـي آنهـا اسـت ، زيـرا دانسـتن حـالاتحقيقي بطور قطعي غير ممكن ميشود.
مقايسه عملكرد بازشناسي حالت بدليل نبود پايگاه داده مشترك سخت است. نتايج دستههاي حالت پايه مشترك، وابستگي به گوينده، حرفهاي يا مردمان عادي، سن فرد گوينده، محيط ضبط صدا، يا نوع جملات و (كلمات يا عبارات) را در پايگاه داده بايد در نظر گرفت. مشكل ميتوان گفت كه كدام سيستم در كل بهتر است. عملكرد بازشناسي حالت تا حد زيادي وابسته به اين است كه چگونه ميتوان ويژگي -هاي مناسب مستقل از گوينده، زبان و متن را استخراج كرد.
براي بازشناسي از شبكههاي هوشمند استفاده ميشود كه از آن جمله شبكههاي عصبي مصنوعي، مدل-هاي ماركوف مخفي، مدلهاي مخلوطكننده گوسي، درختهاي تصميمگيري، ماشينهاي بردار پشتيبان، آناليز تفكيككننده خطي، آناليز تفكيككننده درجه دوم و … ميباشد.
در ادامه نتايج چند تحقيق كه از روشهاي مختلف براي منظورهاي متفاوت استفاده كرده است، بررسي شده و برخي نكات ديگر در آنها مطرح خواهد شد.

جمعبندي
همانگونه كه ديده شد، ميتوان از الگوريتمها و روشهاي مختلفي براي بازشناسي حالات استفاده كرد، كه در هر مسئله با يكي از اين الگوريتم ها ميتوان به بهترين نتايج رسيد. بنابراين نميتوان گفت كه كدام الگوريتم هميشه بهترين نتايج را ارائه ميدهد.
از طرفي مشاهده شد كه، هر چه تعداد حالات مورد درخواست جهت انتقال و بازشناسي كمتر باشند، نتايج دقيقتري حاصل ميشود. همچنين از لحاظ هزينه نيز معقولتر است. اما نميتوان گفت كه افراد هميشه داراي يك سري حالات خاصي هستند. از طرفي نميتوان از تمامي ويژگيهاي صوتي براي بازشناسي حالات گفتار استفاده كرد، زيرا: اولا، مقرون به صرفه نيست. و ثانيا، براي شرايط بازشناسي زمان واقعي، محاسبات زياد شده و دچار خطا ميشود. بنابراين بايد براي يافتن ويژگيهاي بهينه جستجو كرد، كه در اكثر تحقيقات معلوم شده است كه ويژگيهاي نواي گفتار، فركانس گام ، فركانس هاي فرمنت و انرژي كارآمدترند و لزومي ندارد از تمامي ويژگيها استفاده شود.
همچنين ميتوان دريافت كه همواره نرخ بازشناسي در حالت مستقل از گوينده كه بيشتر مطلوب است، كمتر از حالت وابسته به گوينده است، كه اين امر نيز طبيعي است.
با توجه به تحقيق فوق ميتوان دريافت كه همواره بيشتر شدن تعداد ويژگيها منجر به بازشناسي بهتر نخواهد شد. زيرا گاهي اوقات برخي از ويژگيهاي اضافه شده اثر منفي داشته كه نبود آنها بهتر نيز مي- باشد، چنانچه در فوق مشاهده شد، با ازاي 52 ويژگي، نتايج ضعيفتري نسبت به زمانيكه تنها از 27 ويژگي منتخب استفاده شد، حاصل شد. گاهي اوقات نيز ممكن است دو دسته ويژگي كه به تنهايي نتايج نسبتا مناسبي دارند، بعد از تركيب نتايج ضعيفتري ارائه دهند. علت اين امر اين است كه به هنگام آموزش، شبكه ممكن است نتواند بين دو دسته مورد بحث رابطه مناسبي پيدا كند و در نتيجه منجر به گم كردن هدف خواهد شد.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت