تشخیص حروف صدا دار از روی تصاویر لب – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:172
قالب بندی:word قابل ویرایش

نحوه خرید

تشخیص حروف صدا دار از روی تصاویر لب – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب

چكيده…………………………………………………………………1
مقدمه…………………………………………………………………….2
فصل اول ……………………………………………………..3
مروري بر روشها ……………………………………………………………..3
مقدمه……………………………………………………………….4
-1مروري بر تحقيقات انجام شده ……………………………………………………….5
-1-1استخراج مشخصههاي ديداري براي لبخواني……………………………………7
-1-1-1روش پايين به بالا……………………………………………………………………7
-1-1-1-1كانتور فعال………………………………………………………………..8
-2-1-1-1لبخواني با كمك اطلاعات شدت نور…………………………….8
-3-1-1-1آناليز فضاي رنگ……………………………………………………………9
-2-1-1روش بالا به پايين…………………………………………………………………10
-1-2-1-1روش مبتني برالگوهاي انعطاف پذير………………………………………11
-2-2-1-1مدل سازيهاي شكل فعال…………………………………………………11
-3-2-1-1آشكارسازي لب مبتني بر مدل دگرديسپذير…………………………..11
-4-2-1-1تكنيكهاي مبتني بر زمينه تصادفي ماركوف ……………………………………….13
-5-2-1-1روشهاي مبتني بر خوشهبندي فازي ………………………………..14
-2-1دستهبندي و تشخيص كلمات…………………………………………16
– تشخيص واكه با كمك شبكههاي عصبي………………………………….16
-3-1معرفي سيستم ارائه شده……………………………………….18
فصل دوم………………………………………………………20
مكانيابي و بازنمايي ناحيه لب…………………………………………20
مقدمه……………………………………………………………21
-1مكانيابي لب……………………………….22
-1-1تشخيص چهره………………………………………24
-2-1مكانيابي لب………………………………………24
-2مسائل مرتبط با رنگ…………………………………………..26
-1-2توصيف انواع مدلهاي رنگ………………………………27
Huncell – مدل ……………………………………………………………………….27
– مدل ) RGBقرمز، سبز، آبي(………………………………28
RGB – مدل نرماليزه شده ……………………………………..29
CMY – مدل …………………………………………….30
XYZ – مدل …………………………………………………………..30
xyz – مدل ……………………………………………………31
-1-1-2فضاي رنگ ادراكي……………………………………………………31
YUV – مدل …………………………………………………………32
HSI – مدل ……………………………………………………………. 32
-2-1-2فضاي رنگ يكنواخت ادراكي…………………………….34
-3مراحل پيشپردازش تصوير لب…………………………………………..38
فصل سوم……………………………………………………………………41
استخراج ناحيه مربوط به لب……………………………..41
مقدمه……………………………………………………..42
– 1-3خوشهبندي………………………………………………………43
K-Means – الگوريتم1-1-3 ………………………………………….46
-2-1-3الگوريتم -cميانگين فازي…………………………………….47
FCM -3-1-3مقايسه الگوريتم K-Meansو …………………………………………………..48
-4-1-3الگوريتم -cميانگين فازي با ارتباط مكاني…………………………..53
-5-1-3پس پردازش……………………………………………….58
-1-5-1-3شكلشناسي……………………………………….58
-2-5-1-3قرينهسازي…………………………………..60
-3-5-1-3روشنايي ………………………………………….61
-4-5-1-3شكلدهي………………………………61
-2-3تبديل موجك…………………………………………63
– الگوريتم مبتني بر تبديل موجك………………………………………………….65
فصل چهارم………………………………………………………………..69
استخراج ويژگيهاي مناسب و طبقهبندي آنها…………………………………………………..69
مقدمه………………………………………………………………70
-1-4استخراج مشخصههاي ديداري …………………………………….71
-1-1-4جداسازي ناحيه لب ……………………………………………71
-2-1-4مشخصههاي ديداري مورد استفاده…………………………………..72
-1-2-1-4پارامترهاي معمول) پارامترهاي طولي(……………………………………73
-2-2-1-4پارامترهاي جديد)پارامترهاي زاويهاي( ……………………………………….74
-2-4دستهبندي و تشخيص كلمات……………………………………….75
-1-2-4پرسپترون………………………………………………..75
-2-2-4تصديق تقاطعي……………………………………………77
فصل پنجم………………………………………………………………..82
نتايج و مشاهدات تجربي …………………………………………….82
-1-5بانكهاي داده…………………………………………………83
-2-5تعيين خطاي بخشبندي……………………………..86
-3-5استفاده از پارامترهاي طولي…………………………………………………..87
-4-5وزندهي خروجي شبكهها به منظور افزايش دقت………………………89
فصل ششم………………………………………………………………91
نتيجهگيري و پيشنهادات………………………………………91
نتيجهگيري……………………………………………….92
منابع و ماخذ ……………………………………….95
فهرست منابع فارسي………………………………………..95
فهرست منابع لاتين…………………………………………….96
چكيده انگليسي…………………………………………..100

چكيده
از ديرباز تشخيص و بازشناسي صحبت به عنوان اولين وسـيله ارتبـاطي بـين انسـانهـا از اهميـت بسـياريبرخوردار بوده است. تاكنون تكنيكهاي بازشناسي صحبت با استفاده از پردازش صوت با تنوع بسيار و با موفقيت نسبي بكار گرفته شدهاند. اما وجود نويز در برخي شرايط، عامل اصلي بروز اشتباهات اساسـي در تشـخيص بـودهاست كه در اين گونه موارد استفاده از پردازش تصوير و به ويژه بررسي شكل لبها و حركت آنها ميتواند بـ راي ارتقاء نتايج مورد استفاده قرار گيرد. فرآيند لبخواني و به عبارت ديگر تشخيص ديداري گفتار دو مرحلـه اصـليقابل بررسي دارد. مرحله اول جداسازي ناحيه دهان و بطور كلي استخراج مشخصـه هـاي ديـداري و مرحلـه دومدستهبندي و تشخيص كلمات ميباشد. در اين پروژه بـراي اسـتخراج مشخصـههـاي ديـداري دو روش اسـتفادهنمودهايم. در روش اول از الگوريتم SFCM و در روش دوم از روش مبتني بر تبديل موجك بهره جسـته ايـم . در مرحله بعد توسط پارامترهاي تعريف شده، يكسري ويژگي مربوط به تصاوير لب را استخراج مـي نمـاييم . در آخـرتوسط شبكه عصبي به دستهبندي ويژگيها و تشخيص واكهها ميپردازيم.
كلمات كليدي: لبخواني، بخشبندي، استخراج ويژگي، دستهبندي، تبديل موجك

مقدمه
كارايي ضعيف سيستمهاي تشخيص صوت و سيستمهاي تصديق گوينده در محيطهاي نويزي سبب شد تـامحققان به فكر استفاده از اطلاعات ديداري در اين سيستمها باشند به همـين دليـل آنـاليز تصـاوير لـب، توجـهزيادي را به خود جلب نمود. اولين گام در آناليز تصاوير لب، استخراج1 ناحيه مربوط به لب در تصـاوير مـي باشـد .
افزايش علاقه در استخراج اين اطلاعات توسط بخشبندي تصاوير لب سبب بوجود آمـدن روش هـاي گونـاگون وبهبود عملكرد سيستمهاي صـوتي – تصـويري در تشـخيص صـوت گرديـد. بزرگتـرين مشـكل در سيسـتم هـاي لبخواني توصيف كمي لب ميباشد. معمولاً روشهاي توصيف لب را به دو دسته، يكي روشهـاي سـطح پـايين
(روشهاي مبتني بر تصوير) و ديگري روشهاي سطح بالا (روشهاي مبتني بر مدل) تقسيم مينماينـد . دقـت ومقاوم بودن در اين فرآيند، مهمترين كليد براي پردازشهاي مراحل بعدي ميباشد زيرا هـر چـه ايـن مرحلـه بـادقت بيشتري انجام شود و بخشبندي ناحيه لب در تصاوير بهتر صورت گيرد مدل نمودن لب راحـت تـر خواهـد بود و با سهولت بيشتري ميتوان ويژگيهاي لب را استخراج نمود. گام بعدي بعد از اسـتخراج ويژگـيهـاي لـب،دسته بندي و تشخيص ويژگي ها ميباشد. در پروژه جاري ما نيز به بررسي تك تك اين مراحـل و ارائـه راهكـاربراي بهبود اين مراحل ميپردازيم.

نتيجه گيري
در اين پاياننامه سعي بر اين بود كه يك روش، براي طراحي سيستمي اتوماتيك براي لبخواني ارائه گردد تا بتوان از اين سيستم براي تشخيص دادن و فهميدن واكه ادا شده استفاده گردد. در اين راستا يك بررسي و مطالعه جامع پيرامون روشهاي موجود در اين زمينه را انجام داديم و نيز يك روش پيشنهادي معرفي نموديم. سيستم ارائه شده در اين پايان نامه داراي نرخ تشخيص درست و نرخ تشخيص نادرست مطلوبي بوده كه جوابهاي بدست آمده بر روي مجموعه آموزشي مورد استفاده قرار گرفته تقريباً از نتايج قابل قبولي در تشخيص واكه برخوردار بود. در سيستم ارائه شده بهترين نتايج متناظر با تشخيص واكههاي ” اَ ” و ” او ” ميباشد كه بيشترين تغييرات ديداري را بر روي دهان ايجاد ميكنند و بدترين نتايج متناظر با واكههاي ” ا ” و ” اي ” ميباشد كه از نظر ديداري جزئيترين تغييرات را ايجاد ميكنند. دستاوردهاي عمده اين پايان نامه عبارتند از:
1- ارائه يك روش جديد براي بخشبندي بهتر ناحيه لب
2- ارائه ويژگي جديد براي افزايش دستهبندي و ارائه يك الگوريتم وزندار براي بالا بردن دقت تشخيص سيستم
3- استفاده از شبكه عصبياي است كه نسبت به روشهاي مورد استفاده در اين زمينه، در كارهاي قبلي، داراي سرعت آموزش سريعتر و پاسخدهي سريعتر ميباشد و دليل آن هم استفاده از چندين طبقهكننده باينري است. زيرا در اين حالت طبقهبندي كننده مورد استفاده براي هر كلاس در مقابل كلاسهاي ديگر آموزش ميبيند و لازم نيست كه تمام ضريب وزنها براي آموزش هر شبكه مورد استفاده قرار گيرد.
در كارهاي آتي مي توان اين سيستم را براي تشخيص واكهها در گويندههاي گونـاگون بكـار بـرد. بـراي اين كار مي بايست با استفاده از علامت زني بر روي تصاوير لب گويندههاي متفـاوت و آمـوزش شـبكه مـورداستفاده اينكار صورت پذيرد. براي افزايش دقت بيشتر اين سيستم ميتوان از اطلاعات صـوت گوينـده بطـورهمزمان در كنار اطلاعات ديداري استفاده نمود. براي انجام اينكار علاوه بر ويژگيهاي استخراج شـده از رويتصاوير بايد يكسري ويژگيهاي مناسب ديگر نيز از روي صوت گوينده اسـتخراج گـردد و در آمـوزش شـبكهمورد استفاده قرار گيرد در اين حالت ممكن است تعداد ويژگيهاي استخراج شده زياد شود كـه مـيتـوان ازروشهايي مانند SFS براي انتخاب نمودن بهترين ويژگيها بهره جست.
بدليل اينكه ديگر محققان هر يك متناسب با كار خود، از يك مجموعه داده آموزشي متفـاوت اسـتفادهنمودهاند نميتوان يك مقايسه درست انجام داد ولي هر يك از مراحـل را مـيتـوان بـه صـورت جداگانـه بـا روشهاي ديگر محققان مقايسه نمود. مقايسه بخش بخشبندي ناحيه لب در فصـل پـنجم بـين روش ارائـهشده توسط ما و روش ارائه شده توسط ديگر محققان در قسمت خطاي بخـش بنـدي نشـان داده شـد. بـرايمقايسه بخش دوم (دسته بندي كلمات) بطور مثال ميتوان به روش آقاي Stork اشاره نمود. ايشان در روش خود زمانيكه فقط از اطلاعات ديداري استفاده نمودند داراي 51% موفقيت و زمانيكـه از اطلاعـات ديـداري و شنيداري استفاده نمودند 91% موفقيت داشتد اين در حالي است كه ما فقـط از اطلاعـات ديـداري اسـتفادهنموديم به 1/79 دقت دست يافتيم.
با توجه به پيشرفتهاي انجام شده در دو دهه اخير هنوز مسائل حل نشدهاي در اين قسمت وجود دارد كه سبب پويايي اين شاخه ميگردد. از جمله پيشنهاداتي كه ميتواند به ارتقاي اينگونـه سيسـتمهـا كمـك نمايد ميتوان به طراحي موارد ذيل اشاره كرد:
1- بلادرنگ بودن سيستم
2- مقاوم بودن سيستم در برابر نويز
3- تعميم دادن به مجموعه دادههاي گوناگون در شرايط مختلف و چندين گوينده
4- نياز روز افزون به كاربرد اينگونه سيستمها در زمينههاي صنعتي و ……

همچنين استفاده از روشهاي انتخاب ويژگي ديگر و مقايسه آنها با روش ارائه شده در اين پايان نامه و استفاده از روشي ديگر كه در آن حذف درون دهان صورت نپذيرد ( در روش ارائه شده زبـان گوينـده حـذفميگرديد) نيز ميتوانند در كارهاي آتي مد نظر قرار گيرند.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت