تشخیص حروف صدا دار از روی تصاویر لب – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:172
قالب بندی:word قابل ویرایش

نحوه خرید

تشخیص حروف صدا دار از روی تصاویر لب – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب

چکیده…………………………………………………………………۱
مقدمه…………………………………………………………………….۲
فصل اول ……………………………………………………..۳
مروری بر روشها ……………………………………………………………..۳
مقدمه……………………………………………………………….۴
-۱مروری بر تحقیقات انجام شده ……………………………………………………….۵
-۱-۱استخراج مشخصههای دیداری برای لبخوانی……………………………………۷
-۱-۱-۱روش پایین به بالا……………………………………………………………………۷
-۱-۱-۱-۱کانتور فعال………………………………………………………………..۸
-۲-۱-۱-۱لبخوانی با کمک اطلاعات شدت نور…………………………….۸
-۳-۱-۱-۱آنالیز فضای رنگ……………………………………………………………۹
-۲-۱-۱روش بالا به پایین…………………………………………………………………۱۰
-۱-۲-۱-۱روش مبتنی برالگوهای انعطاف پذیر………………………………………۱۱
-۲-۲-۱-۱مدل سازیهای شکل فعال…………………………………………………۱۱
-۳-۲-۱-۱آشکارسازی لب مبتنی بر مدل دگردیسپذیر…………………………..۱۱
-۴-۲-۱-۱تکنیکهای مبتنی بر زمینه تصادفی مارکوف ……………………………………….۱۳
-۵-۲-۱-۱روشهای مبتنی بر خوشهبندی فازی ………………………………..۱۴
-۲-۱دستهبندی و تشخیص کلمات…………………………………………۱۶
– تشخیص واکه با کمک شبکههای عصبی………………………………….۱۶
-۳-۱معرفی سیستم ارائه شده……………………………………….۱۸
فصل دوم………………………………………………………۲۰
مکانیابی و بازنمایی ناحیه لب…………………………………………۲۰
مقدمه……………………………………………………………۲۱
-۱مکانیابی لب……………………………….۲۲
-۱-۱تشخیص چهره………………………………………۲۴
-۲-۱مکانیابی لب………………………………………۲۴
-۲مسائل مرتبط با رنگ…………………………………………..۲۶
-۱-۲توصیف انواع مدلهای رنگ………………………………۲۷
Huncell – مدل ……………………………………………………………………….۲۷
– مدل ) RGBقرمز، سبز، آبی(………………………………۲۸
RGB – مدل نرمالیزه شده ……………………………………..۲۹
CMY – مدل …………………………………………….۳۰
XYZ – مدل …………………………………………………………..۳۰
xyz – مدل ……………………………………………………۳۱
-۱-۱-۲فضای رنگ ادراکی……………………………………………………۳۱
YUV – مدل …………………………………………………………۳۲
HSI – مدل ……………………………………………………………. ۳۲
-۲-۱-۲فضای رنگ یکنواخت ادراکی…………………………….۳۴
-۳مراحل پیشپردازش تصویر لب…………………………………………..۳۸
فصل سوم……………………………………………………………………۴۱
استخراج ناحیه مربوط به لب……………………………..۴۱
مقدمه……………………………………………………..۴۲
– ۱-۳خوشهبندی………………………………………………………۴۳
K-Means – الگوریتم۱-۱-۳ ………………………………………….۴۶
-۲-۱-۳الگوریتم -cمیانگین فازی…………………………………….۴۷
FCM -3-1-3مقایسه الگوریتم K-Meansو …………………………………………………..۴۸
-۴-۱-۳الگوریتم -cمیانگین فازی با ارتباط مکانی…………………………..۵۳
-۵-۱-۳پس پردازش……………………………………………….۵۸
-۱-۵-۱-۳شکلشناسی……………………………………….۵۸
-۲-۵-۱-۳قرینهسازی…………………………………..۶۰
-۳-۵-۱-۳روشنایی ………………………………………….۶۱
-۴-۵-۱-۳شکلدهی………………………………۶۱
-۲-۳تبدیل موجک…………………………………………۶۳
– الگوریتم مبتنی بر تبدیل موجک………………………………………………….۶۵
فصل چهارم………………………………………………………………..۶۹
استخراج ویژگیهای مناسب و طبقهبندی آنها…………………………………………………..۶۹
مقدمه………………………………………………………………۷۰
-۱-۴استخراج مشخصههای دیداری …………………………………….۷۱
-۱-۱-۴جداسازی ناحیه لب ……………………………………………۷۱
-۲-۱-۴مشخصههای دیداری مورد استفاده…………………………………..۷۲
-۱-۲-۱-۴پارامترهای معمول) پارامترهای طولی(……………………………………۷۳
-۲-۲-۱-۴پارامترهای جدید)پارامترهای زاویهای( ……………………………………….۷۴
-۲-۴دستهبندی و تشخیص کلمات……………………………………….۷۵
-۱-۲-۴پرسپترون………………………………………………..۷۵
-۲-۲-۴تصدیق تقاطعی……………………………………………۷۷
فصل پنجم………………………………………………………………..۸۲
نتایج و مشاهدات تجربی …………………………………………….۸۲
-۱-۵بانکهای داده…………………………………………………۸۳
-۲-۵تعیین خطای بخشبندی……………………………..۸۶
-۳-۵استفاده از پارامترهای طولی…………………………………………………..۸۷
-۴-۵وزندهی خروجی شبکهها به منظور افزایش دقت………………………۸۹
فصل ششم………………………………………………………………۹۱
نتیجهگیری و پیشنهادات………………………………………۹۱
نتیجهگیری……………………………………………….۹۲
منابع و ماخذ ……………………………………….۹۵
فهرست منابع فارسی………………………………………..۹۵
فهرست منابع لاتین…………………………………………….۹۶
چکیده انگلیسی…………………………………………..۱۰۰

چکیده
از دیرباز تشخیص و بازشناسی صحبت به عنوان اولین وسـیله ارتبـاطی بـین انسـانهـا از اهمیـت بسـیاریبرخوردار بوده است. تاکنون تکنیکهای بازشناسی صحبت با استفاده از پردازش صوت با تنوع بسیار و با موفقیت نسبی بکار گرفته شدهاند. اما وجود نویز در برخی شرایط، عامل اصلی بروز اشتباهات اساسـی در تشـخیص بـودهاست که در این گونه موارد استفاده از پردازش تصویر و به ویژه بررسی شکل لبها و حرکت آنها میتواند بـ رای ارتقاء نتایج مورد استفاده قرار گیرد. فرآیند لبخوانی و به عبارت دیگر تشخیص دیداری گفتار دو مرحلـه اصـلیقابل بررسی دارد. مرحله اول جداسازی ناحیه دهان و بطور کلی استخراج مشخصـه هـای دیـداری و مرحلـه دومدستهبندی و تشخیص کلمات میباشد. در این پروژه بـرای اسـتخراج مشخصـههـای دیـداری دو روش اسـتفادهنمودهایم. در روش اول از الگوریتم SFCM و در روش دوم از روش مبتنی بر تبدیل موجک بهره جسـته ایـم . در مرحله بعد توسط پارامترهای تعریف شده، یکسری ویژگی مربوط به تصاویر لب را استخراج مـی نمـاییم . در آخـرتوسط شبکه عصبی به دستهبندی ویژگیها و تشخیص واکهها میپردازیم.
کلمات کلیدی: لبخوانی، بخشبندی، استخراج ویژگی، دستهبندی، تبدیل موجک

مقدمه
کارایی ضعیف سیستمهای تشخیص صوت و سیستمهای تصدیق گوینده در محیطهای نویزی سبب شد تـامحققان به فکر استفاده از اطلاعات دیداری در این سیستمها باشند به همـین دلیـل آنـالیز تصـاویر لـب، توجـهزیادی را به خود جلب نمود. اولین گام در آنالیز تصاویر لب، استخراج۱ ناحیه مربوط به لب در تصـاویر مـی باشـد .
افزایش علاقه در استخراج این اطلاعات توسط بخشبندی تصاویر لب سبب بوجود آمـدن روش هـای گونـاگون وبهبود عملکرد سیستمهای صـوتی – تصـویری در تشـخیص صـوت گردیـد. بزرگتـرین مشـکل در سیسـتم هـای لبخوانی توصیف کمی لب میباشد. معمولاً روشهای توصیف لب را به دو دسته، یکی روشهـای سـطح پـایین
(روشهای مبتنی بر تصویر) و دیگری روشهای سطح بالا (روشهای مبتنی بر مدل) تقسیم مینماینـد . دقـت ومقاوم بودن در این فرآیند، مهمترین کلید برای پردازشهای مراحل بعدی میباشد زیرا هـر چـه ایـن مرحلـه بـادقت بیشتری انجام شود و بخشبندی ناحیه لب در تصاویر بهتر صورت گیرد مدل نمودن لب راحـت تـر خواهـد بود و با سهولت بیشتری میتوان ویژگیهای لب را استخراج نمود. گام بعدی بعد از اسـتخراج ویژگـیهـای لـب،دسته بندی و تشخیص ویژگی ها میباشد. در پروژه جاری ما نیز به بررسی تک تک این مراحـل و ارائـه راهکـاربرای بهبود این مراحل میپردازیم.

نتیجه گیری
در این پایاننامه سعی بر این بود که یک روش، برای طراحی سیستمی اتوماتیک برای لبخوانی ارائه گردد تا بتوان از این سیستم برای تشخیص دادن و فهمیدن واکه ادا شده استفاده گردد. در این راستا یک بررسی و مطالعه جامع پیرامون روشهای موجود در این زمینه را انجام دادیم و نیز یک روش پیشنهادی معرفی نمودیم. سیستم ارائه شده در این پایان نامه دارای نرخ تشخیص درست و نرخ تشخیص نادرست مطلوبی بوده که جوابهای بدست آمده بر روی مجموعه آموزشی مورد استفاده قرار گرفته تقریباً از نتایج قابل قبولی در تشخیص واکه برخوردار بود. در سیستم ارائه شده بهترین نتایج متناظر با تشخیص واکههای ” اَ ” و ” او ” میباشد که بیشترین تغییرات دیداری را بر روی دهان ایجاد میکنند و بدترین نتایج متناظر با واکههای ” ا ” و ” ای ” میباشد که از نظر دیداری جزئیترین تغییرات را ایجاد میکنند. دستاوردهای عمده این پایان نامه عبارتند از:
۱- ارائه یک روش جدید برای بخشبندی بهتر ناحیه لب
۲- ارائه ویژگی جدید برای افزایش دستهبندی و ارائه یک الگوریتم وزندار برای بالا بردن دقت تشخیص سیستم
۳- استفاده از شبکه عصبیای است که نسبت به روشهای مورد استفاده در این زمینه، در کارهای قبلی، دارای سرعت آموزش سریعتر و پاسخدهی سریعتر میباشد و دلیل آن هم استفاده از چندین طبقهکننده باینری است. زیرا در این حالت طبقهبندی کننده مورد استفاده برای هر کلاس در مقابل کلاسهای دیگر آموزش میبیند و لازم نیست که تمام ضریب وزنها برای آموزش هر شبکه مورد استفاده قرار گیرد.
در کارهای آتی می توان این سیستم را برای تشخیص واکهها در گویندههای گونـاگون بکـار بـرد. بـرای این کار می بایست با استفاده از علامت زنی بر روی تصاویر لب گویندههای متفـاوت و آمـوزش شـبکه مـورداستفاده اینکار صورت پذیرد. برای افزایش دقت بیشتر این سیستم میتوان از اطلاعات صـوت گوینـده بطـورهمزمان در کنار اطلاعات دیداری استفاده نمود. برای انجام اینکار علاوه بر ویژگیهای استخراج شـده از رویتصاویر باید یکسری ویژگیهای مناسب دیگر نیز از روی صوت گوینده اسـتخراج گـردد و در آمـوزش شـبکهمورد استفاده قرار گیرد در این حالت ممکن است تعداد ویژگیهای استخراج شده زیاد شود کـه مـیتـوان ازروشهایی مانند SFS برای انتخاب نمودن بهترین ویژگیها بهره جست.
بدلیل اینکه دیگر محققان هر یک متناسب با کار خود، از یک مجموعه داده آموزشی متفـاوت اسـتفادهنمودهاند نمیتوان یک مقایسه درست انجام داد ولی هر یک از مراحـل را مـیتـوان بـه صـورت جداگانـه بـا روشهای دیگر محققان مقایسه نمود. مقایسه بخش بخشبندی ناحیه لب در فصـل پـنجم بـین روش ارائـهشده توسط ما و روش ارائه شده توسط دیگر محققان در قسمت خطای بخـش بنـدی نشـان داده شـد. بـرایمقایسه بخش دوم (دسته بندی کلمات) بطور مثال میتوان به روش آقای Stork اشاره نمود. ایشان در روش خود زمانیکه فقط از اطلاعات دیداری استفاده نمودند دارای ۵۱% موفقیت و زمانیکـه از اطلاعـات دیـداری و شنیداری استفاده نمودند ۹۱% موفقیت داشتد این در حالی است که ما فقـط از اطلاعـات دیـداری اسـتفادهنمودیم به ۱/۷۹ دقت دست یافتیم.
با توجه به پیشرفتهای انجام شده در دو دهه اخیر هنوز مسائل حل نشدهای در این قسمت وجود دارد که سبب پویایی این شاخه میگردد. از جمله پیشنهاداتی که میتواند به ارتقای اینگونـه سیسـتمهـا کمـک نماید میتوان به طراحی موارد ذیل اشاره کرد:
۱- بلادرنگ بودن سیستم
۲- مقاوم بودن سیستم در برابر نویز
۳- تعمیم دادن به مجموعه دادههای گوناگون در شرایط مختلف و چندین گوینده
۴- نیاز روز افزون به کاربرد اینگونه سیستمها در زمینههای صنعتی و ……

همچنین استفاده از روشهای انتخاب ویژگی دیگر و مقایسه آنها با روش ارائه شده در این پایان نامه و استفاده از روشی دیگر که در آن حذف درون دهان صورت نپذیرد ( در روش ارائه شده زبـان گوینـده حـذفمیگردید) نیز میتوانند در کارهای آتی مد نظر قرار گیرند.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت

آخرین مطالب

مطالب مرتبط