ارتقای فشرده سازی سیگنال گفتار با استفاده از چندی کننده های برداری عصبی – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:117
قالب بندی:word قابل ویرایش

نحوه خرید

ارتقای فشرده سازی سیگنال گفتار با استفاده از چندی کننده های برداری عصبی – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب
۱ چکیده
۲ مقدمه
فصل اول : کلیات
۱- ۱) هدف ……………………………………………….. ۴
۱- ۲) پیشینه تحقیق …………………………………………… ۵
۱- ۳) روش کار و تحقیق …………………… ۵

فصل دوم : تولید گفتار و کدکننده های گفتار مبتنی بر پیشبینی خطی
۲-۱) تولید گفتار ………………………. ۸
۲-۲) چندیسازی …………………………………….. ۱۳
۲-۳) چندیسازی برداری …………………………. ۱۴
۲-۴) کدکنندههای گفتار ………………………………………. ۱۷
۲-۴- ۱) دستهبندی عمومی کدکنندههای گفتار ………………………….١٨
۲-۴- ۲) وکودرها ……………………………………١٩
۲-۵) تحلیل براساس پیش بینی خطی ……………………………………… ۱۹
۲-۵- ۱) محاسبه ضرایب LPC …………………………….٢١
۲-۵- ۲) تبدیل ضرایب LPC به ضرایبLSP ……………………..٢٣
فصل سوم: معرفی کدکننده گفتار ۱۰-LPC
۳- ۱) دستهبندی کدکنندههای گفتار ……………………………….. ۲۷
۳- ۲) ویژگیهای کدکننده ۱۰-LPC ………………………ا… ۲۷
۳- ۳) چندیکردن برداری LPC …………….ا………… ۳۱
۳- ۴) روش کد کردن و تخصیص بیت در ۱۰-LPC ……………………….ا…. ۳۱
۳- ۵) محاسبه پارامترهای کدکننده ۱۰-LPC …………………………………ا…. ۳۳
۳-۵- ۱) روش ضرایب خودهمبستگی ………………………………….٣٣
۳-۵- ۲) روش کوواریانس …………………….٣۵
فصل چهارم : شبکههای عصبی رقابتی با قابلیت خود سازماندهی
۴- ۱) شبکههای عصبی مصنوعی ……………………………………… . ۳۹
۴- ۲) شبکههای عصبی رقابتی ………………………………………… ۴۱
۴- ۳) آموزش رقابتی …………………………………… ۴۲
۴-۳- ۱) خوشهبندی ………………………………………….۴٢
۴-۳- ۲) الگوریتم یادگیری الگوهای با قابلیت خودسازماندهی(SOM) ……………….۴۴
۴- ۴) شبکه عصبی کوهنن ………………………… ۴۵
۴- ۵) شبکههای عصبیART وARTMAP ………………..ا……………..۴۸
۴-۵- ۱) الگوریتم ۱ART ………………………..۴٨
Fuzzy ART الگوریتم (۶ -۴ …………………….ا…………. ۵۵
۴- ۷) چندیسازی بردار یادگیری(LVQ) ……………………ا………….. ۵۹

فصل پنجم: شبیهسازی و نتایج تجربی
۵-۱) روش بهبود کدکننده گفتار …………………………………… ۶۲
۵-۲) مدل پیشنهادی ………………………………………….. ۶۳
۵-۳) شبیهسازی و نتایج تجربی …………………………………………. ۶۷
۵-۴) اندازهگیری کیفیت گفتارهای بازسازی شده و مقایسه زمان کدکردن گفتار ……………………….. ۷۵
۵-۵) فلوچارت برنامه شبیهسازی ………………………………….. ۷۸

فصل ششم: نتیجهگیری و پیشنهادات

۶- ۱) نتیجهگیری …………………………………….. ۸۱
۶- ۲) پیشنهادات ………………………………………………………….. ۸۳

منابع و ماخذ …………………………………………. ۸۴

فهرست منابع فارسی ……………………………………………………..۸۴

فهرست منابع لاتین …………………………. ۸۵

سایتهای اطلاع رسانی ………………………………………….. ۸۸
چکیده انگلیسی …………………………………… ۸۹

چکیده

پارامترهای کدکردن براساس پیشبینی خطی یا ضرایب LPC بطور گسترده در فشردهسازی سیگنال گفتار مورد استفاده قرار میگیرد. از سوی دیگر، شبکههای عصبی مصنوعی به عنوان سیستم هوشمندی هستند که میتوانند در سیستمهای خطی و غیرخطی مانند کدینگ گفتار و تصویر بکار روند. در این تحقیق دو نمونه از شبکههای عصبی مبتنی بر تکنیک چندی سازی برداری به نامهای شبکه کوهنن و ARTMAP معرفی میشوند، که ازآنها برای دستهبندی بردارهای حاصل ازپردازش سیگنال گفتارورودی استفاده میشود، در این تکنیک با استفاده از زوجهای خط طیفی(LSP)1 بعنوان یک پارامتر قابل جایگزینی بجای ضرایب LPC میتوان نرخ بیت را کاهش داد درحالیکه کیفیت گفتار سنتز شده تقریباً حفظ میشود و این بدلیل ایناست که وقتی ازپارامترهایLSP استفاده میشود، فرکانسهای فرمنت(Formant) خوبی بدست میآید که مشابه فرکانسهای اصلی سیگنال گفتار میباشد. بااین روش، نرخ بیت با توجه به واکدار یا بیواک بودن قاب گفتار مربوطه بین ۲ تا ۳۳ درصد کاهش مییابد. همچنین در این تحقیق شبکههای عصبی کوهنن و نظ ریه تشدید تطبیقی۲ به عنوان دو شبکه عصبی بدون سرپرست۳ و روش چندیسازی بردارهای یادگیری۴ به عنوان یک شبکه عصبی با سرپرست۵ معرفی و نتایج حاصل از هریک با هم مقایسه میشوند. نمونههای صوتی بکار رفته نیز به زبان فارسی میباشند.

مقدمه

اخیراً اکثر تکنیکهایی که برای فشردهسازی سیگنال گفتار بکار میروند، براساس پیشبینی خطی ساختار یافتهاند. سیگنال گفتار بعنوان یک ابزار مهم در ارتباطات انسان در فناوریهای دیجیتالی مورد توجه خاص قرار گرفته است. نرخ بیت سیگنال گفتار ارسالشده باید کاهش یابد. سیگنال گفتار یک سیگنال پیوسته و غیرخطی بوده که بصورت فیزیکی توسط لوله صوتی انسان تولید و شکل داده میشود، بنابراین ویژگیهای سیگنال گفتار به حرکات لوله صوتی در طول زمان و همچنین مشخصات گوینده بستگی دارد. تبدیل پارامترهای LPC به LSP کارایی کدکنندههای با نرخ بیت کم را بهبود میبخشد.
پارامترهایLSP فرکانسهای فرمنت لوله صوتی را بصورت ریاضی مدلسازی میکنند. ازسویدیگر شبکههای عصبی به عنوان ابزاری موفق تاکنون در کاربردهای گوناگونی از پردازش گفتار و زبان مورد استفاده قرار گرفتهاند. دراینراستا کاربردهای بازشناسیخودکارگفتار۱(ASR)[39 -38و۴]، سنتز گفتار طبیعی[۶-۵و۴۰] و پردازش زبانطبیعی۲(NLP)[8-7و۴۱] به عنوان نمونههایی که توسط مؤلف برای زبان فارسی تجربه شدهاند، قابلذکر است. برای کدکنندههای گفتار نیز شبکههای عصبی در حوزه کاری مورد استفاده قرار گرفتهاند: پیشبینیکنندههای نورونی برای بهبودکیفیت[۴۶-۴۲] وکاهش پیچیدگیمحاسباتیدر کدکنندهها [۵۲-۴۷]. دراین تحقیق یک روش جدید برای کد کردن گفتار با نرخ بیت کم معرفی میشود که از پارامترهای LSP برای استخراج و نگاشت ویژگیهای سیگنالگفتار با استفاده از نوعی شبکه عصبی مصنوعی بنام شبکه خودسازمانده(SOM)3 استفاده میکند. استفاده از اینروش نرخ بیتگفتار بازسازیشده را کاهش میدهد، درحالیکه کیفیت سیگنال تفاوت آشکاری با گفتار اصلی ندارد. برای اندازهگیری کیفیت-گفتار سنتزشده از معیار میانگین امتیاز آرا داده شده۴ (MOS) استفاده میشود.

نتیجه گیری

مجموع مباحثی که در این تحقیق مورد ارزیابی قرار گرفتند، بهدنبال یک هدف میباشند و آن کاهش نرخ بیت گفتار و فشردهسازی آن با استفاده از کدکنندههای گفتار مبتنی بر پیشبینی خطی(LPC) و بخصوص کدکننده استاندارد ارتش ایالات متحده ۱۰-FS1015 LPC با روشی جدید میباشد. در قسمت پردازش پارامترهایLPC کدکننده جدید و قبل از ارسال اندیسهای بردار-کد مربوط به هر یک از پارامترها، و در بخش چندیسازی برداری این کدها از شبکه عصبی رقابتی استفاده شده است. تفاوت دیگر کدکننده جدید این است که بجای کد کردن پارامترهای LPC ابتدا این پارامترها به ضرایبLSP یا LSF تبدیل شده و سپس از این ضرایب بجای ضرایبLPC استفاده میشود. این تبدیل با توجه به ویژگیهایی که برای ضرایب LSP در فصل۲ اشاره شد، موجب میشود تا گفتار سنتز شده، گفتاری با کیفیت بهتر و با حساسیت کمتر نسبت به نویز و خطای فشردهسازی باشد. شبکههای عصبی که در این تحقیق بکار رفتهاند عبارتند از شبکه کوهنن و شبکهFuzzy ARTMAP میباشند. نتایج بدست آمده در فصل ۵ نشان میدهد که استفاده از شبکههای عصبی رقابتی در کدکننده باعث کاهش نرخ بیت گفتار کدشده نسبت به کدکنند ۱۰LPC- عادی میشود و در عین حال باتوجه به معیار MOS و بهدلیل استفاده از پارامترهایLSP، تفاوت کیفیت گفتار بدست آمده از کدکننده جدید با گفتار اصلی بسیار کمتر است.
دلیل استفاده از دو شبکه عصبی در این تحقیق، بکار بردن روشهای مختلف برای دستیابی به حداکثر بهینهسازی و یافتن روشهای بهتر برای فشردهسازی سیگنال گفتار است. مقایسه نتایج بدست آمده از شبیهسازی به دو روش فوق نشان میدهد که شبکهFuzzy ARTMAP نسبت به شبکه کوهنن کارآمدتر بوده وخطای فشردهسازی آن نیز کمتر است. بنابراین گفتار بدست آمده از کدکنندهای که برای قسمت چندیسازی برداری آن از شبکه Fuzzy ARTMAP استفاده شدهاست، کیفیت بالاتری دارد. این الگوریتم بهدلیل ساختار فازی که دارد میتواند بجای انتخاب تنها یک نورون برنده برای هر ورودی و تخصیص بیت به کلاس مربوط به آن نورون، احتمال تعلق هر ورودی به کلاسهای نزدیک به آن ورودی را تعیین و متناسب با آن احتمال درصدی از بیت را تخصیص میدهد. بهاین ترتیب گفتار بازسازی شده، دقیقتر بوده و به گفتار ورودی کدکننده شباهت بیشتری خواهد داشت. به لحاظ کیفیت گفتار تا ۵ درصد بهتر از موقعی است که از شبکه کوهنن استفاده میشود. تنها ضعف این شبکه، کند بودن زمان یادگیری شبکه در صورت استفاده از دستهها یا کلاسهای بالاست که نیازمند پارامتر بزرگتر میباشد. از آنجا که استراتژی بکار رفته برای نرخ بیت در هردو شبکه یکسان در نظر گرفته شده است، دو روش فوق از لحاظ نرخ بیت فشردهسازی تفاوتی با هم ندارند ولی مقایسه سطوح MOS نتایج بدست آمده از دو شبکه، مؤید این مطلب است که بکار بردن شبکه عصبی Fuzzy ARTMAP موجب بوجود آمدن گفتار سنتز شده با کیفیت بالاتر میباشد. بدون شک به علت وجود سه پارامتر مختلف در شبکه Fuzzy ARTMAP میتوان از ترکیبهای مختلفی از این سه پارامتر برای تعیین دستهها یا کلاسهای شبکه بکاررفته، استفادهکرد. دو ویژگی اساسی شبکههای ART عبارتند از پایداری و انعطاف پذیری. پایداری به معنای عدم نوسان یک الگو در مراحل مختلف آموزش بین دستههای مختلف میباشد. انعطافپذیری این شبکه بصورت توانایی شبکه در یادگیری الگوهای جدید در هر یک از مراحل یادگیری، تعریف میشود. وجود این دو ویژگی در شبکه عصبی مورد بحث باعث کارآیی بهتر شبکه در کاربرهایی نظیر دستهبندی ویژگیها، چندیکردن و… میگردد.
با توجه به نتایج بدست آمده در فصل قبل مشاهده میشود که استفاده از شبکه عصبی SOM باعث کاهش نرخ بیت کدکردن سیگنال گفتار میشود، درحالیکه کیفیت گفتار سنتز شده نسبت به کد کننده ۱۰-LPCاصلی بهبود مییابد. طبق جدول ۵-۱ که در فصل پنجم نشان داده شد، نرخ بیت قسمت واکدار گفتار حدود ۲ درصد و نرخ بیت قسمت بیواک ۳۳ درصد کاهش مییابد. همچنین طبق محاسبه ای که برای نرخ بیت کلی کد کننده جدید در همان فصل انجام گرفت، نرخ بیت کدکننده جدید نسبت به نرخ بیت کد کننده اصلی که مقدار آن kbps4/2 است، ۲۱ درصد کاهش مییابد و به kbps 88/1میرسد. از طرفی نتایج مربوط به سطوح MOS نشان میدهد که سطح MOS در صورت استفاده از شبکه عصبی کوهنن به ۸/۲ و در صورت استفاده از شبکه عصبی Fuzzy ARTMAP به ۹۳/۲ میرسد. بنابراین این روش میتواند نرخ بیت را به همان اندازه که در مرجع [۴] بحث شده است کاهش دهد و از طرف دیگر سطح MOS در روش جدید، در صورت استفاده از شبکه Fuzzy ARTMAP نسبت به روشهای بکار رفته در [۲] و [۴] نزدیک ۵ درصد بالاتر میباشد. با مقایسه زمان اجرای عملیات کد کردن گفتار برای تعداد قابهای گفتار معین نیز به این نتیجه رسیدیم که مدت زمان انجام عملیات کد کردن گفتار در صورت استفاده از شبکه FuzzyARTMAP نسبت به زمانی که از شبکه کوهنن استفاده میکنیم کمتر است. به عبارت دیگر الگوریتم Fuzzy ARTMAP سریعتر از الگوریتم کوهنن دستههای مربوط به دادههای ورودی را تشخیص داده و اندیس مربوط به آن را برای قسمت سنتز کننده ارسال میکند. استفاده از هر دو روش، باعث کاهش زمان کد کردن نسبت به کد کننده ۰۱-LPC اصلی میشود.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت

آخرین مطالب

مطالب مرتبط