ارتقای فشرده سازی سیگنال گفتار با استفاده از چندی کننده های برداری عصبی – برق

مشخصات فایل

مقطع:کارشناسی ارشد
رشته تحصیلی:مهندسی برق
نوع ارائه:پایان نامه
تعداد صفحات:117
قالب بندی:word قابل ویرایش

نحوه خرید

ارتقای فشرده سازی سیگنال گفتار با استفاده از چندی کننده های برداری عصبی – برق

شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

چکیده

فهرست مطالب
1 چكيده
2 مقدمه
فصل اول : كليات
1- 1) هدف ……………………………………………….. 4
1- 2) پيشينه تحقيق …………………………………………… 5
1- 3) روش كار و تحقيق …………………… 5

فصل دوم : توليد گفتار و كدكننده هاي گفتار مبتني بر پيشبيني خطي
2-1) توليد گفتار ………………………. 8
2-2) چنديسازي …………………………………….. 13
2-3) چنديسازي برداري …………………………. 14
2-4) كدكنندههاي گفتار ………………………………………. 17
2-4- 1) دستهبندي عمومي كدكنندههاي گفتار ………………………….١٨
2-4- 2) وكودرها ……………………………………١٩
2-5) تحليل براساس پيش بيني خطي ……………………………………… 19
2-5- 1) محاسبه ضرايب LPC …………………………….٢١
2-5- 2) تبديل ضرايب LPC به ضرايبLSP ……………………..٢٣
فصل سوم: معرفي كدكننده گفتار 10-LPC
3- 1) دستهبندي كدكنندههاي گفتار ……………………………….. 27
3- 2) ويژگيهاي كدكننده 10-LPC ………………………ا… 27
3- 3) چنديكردن برداري LPC …………….ا………… 31
3- 4) روش كد كردن و تخصيص بيت در 10-LPC ……………………….ا…. 31
3- 5) محاسبه پارامترهاي كدكننده 10-LPC …………………………………ا…. 33
3-5- 1) روش ضرايب خودهمبستگي ………………………………….٣٣
3-5- 2) روش كوواريانس …………………….٣٥
فصل چهارم : شبكههاي عصبي رقابتي با قابليت خود سازماندهي
4- 1) شبكههاي عصبي مصنوعي ……………………………………… . 39
4- 2) شبكههاي عصبي رقابتي ………………………………………… 41
4- 3) آموزش رقابتي …………………………………… 42
4-3- 1) خوشهبندي ………………………………………….٤٢
4-3- 2) الگوريتم يادگيري الگوهاي با قابليت خودسازماندهي(SOM) ……………….٤٤
4- 4) شبكه عصبي كوهنن ………………………… 45
4- 5) شبكههاي عصبيART وARTMAP ………………..ا……………..48
4-5- 1) الگوريتم 1ART ………………………..٤٨
Fuzzy ART الگوريتم (6 -4 …………………….ا…………. 55
4- 7) چنديسازي بردار يادگيري(LVQ) ……………………ا………….. 59

فصل پنجم: شبيهسازي و نتايج تجربي
5-1) روش بهبود كدكننده گفتار …………………………………… 62
5-2) مدل پيشنهادي ………………………………………….. 63
5-3) شبيهسازي و نتايج تجربي …………………………………………. 67
5-4) اندازهگيري كيفيت گفتارهاي بازسازي شده و مقايسه زمان كدكردن گفتار ……………………….. 75
5-5) فلوچارت برنامه شبيهسازي ………………………………….. 78

فصل ششم: نتيجهگيري و پيشنهادات

6- 1) نتيجهگيري …………………………………….. 81
6- 2) پيشنهادات ………………………………………………………….. 83

منابع و ماخذ …………………………………………. 84

فهرست منابع فارسي ……………………………………………………..84

فهرست منابع لاتين …………………………. 85

سايتهاي اطلاع رساني ………………………………………….. 88
چكيده انگليسي …………………………………… 89

چكيده

پارامترهاي كدكردن براساس پيشبيني خطي يا ضرايب LPC بطور گسترده در فشردهسازي سيگنال گفتار مورد استفاده قرار ميگيرد. از سوي ديگر، شبكههاي عصبي مصنوعي به عنوان سيستم هوشمندي هستند كه ميتوانند در سيستمهاي خطي و غيرخطي مانند كدينگ گفتار و تصوير بكار روند. در اين تحقيق دو نمونه از شبكههاي عصبي مبتني بر تكنيك چندي سازي برداري به نامهاي شبكه كوهنن و ARTMAP معرفي ميشوند، كه ازآنها براي دستهبندي بردارهاي حاصل ازپردازش سيگنال گفتارورودي استفاده ميشود، در اين تكنيك با استفاده از زوجهاي خط طيفي(LSP)1 بعنوان يك پارامتر قابل جايگزيني بجاي ضرايب LPC ميتوان نرخ بيت را كاهش داد درحاليكه كيفيت گفتار سنتز شده تقريباً حفظ ميشود و اين بدليل ايناست كه وقتي ازپارامترهايLSP استفاده ميشود، فركانسهاي فرمنت(Formant) خوبي بدست ميآيد كه مشابه فركانسهاي اصلي سيگنال گفتار ميباشد. بااين روش، نرخ بيت با توجه به واكدار يا بيواك بودن قاب گفتار مربوطه بين 2 تا 33 درصد كاهش مييابد. همچنين در اين تحقيق شبكههاي عصبي كوهنن و نظ ريه تشديد تطبيقي2 به عنوان دو شبكه عصبي بدون سرپرست3 و روش چنديسازي بردارهاي يادگيري4 به عنوان يك شبكه عصبي با سرپرست5 معرفي و نتايج حاصل از هريك با هم مقايسه ميشوند. نمونههاي صوتي بكار رفته نيز به زبان فارسي ميباشند.

مقدمه

اخيراً اكثر تكنيكهايي كه براي فشردهسازي سيگنال گفتار بكار ميروند، براساس پيشبيني خطي ساختار يافتهاند. سيگنال گفتار بعنوان يك ابزار مهم در ارتباطات انسان در فناوريهاي ديجيتالي مورد توجه خاص قرار گرفته است. نرخ بيت سيگنال گفتار ارسالشده بايد كاهش يابد. سيگنال گفتار يك سيگنال پيوسته و غيرخطي بوده كه بصورت فيزيكي توسط لوله صوتي انسان توليد و شكل داده ميشود، بنابراين ويژگيهاي سيگنال گفتار به حركات لولة صوتي در طول زمان و همچنين مشخصات گوينده بستگي دارد. تبديل پارامترهاي LPC به LSP كارايي كدكنندههاي با نرخ بيت كم را بهبود ميبخشد.
پارامترهايLSP فركانسهاي فرمنت لوله صوتي را بصورت رياضي مدلسازي ميكنند. ازسويديگر شبكههاي عصبي به عنوان ابزاري موفق تاكنون در كاربردهاي گوناگوني از پردازش گفتار و زبان مورد استفاده قرار گرفتهاند. دراينراستا كاربردهاي بازشناسيخودكارگفتار1(ASR)[39 -38و4]، سنتز گفتار طبيعي[6-5و40] و پردازش زبانطبيعي2(NLP)[8-7و41] به عنوان نمونههايي كه توسط مؤلف براي زبان فارسي تجربه شدهاند، قابلذكر است. براي كدكنندههاي گفتار نيز شبكههاي عصبي در حوزه كاري مورد استفاده قرار گرفتهاند: پيشبينيكنندههاي نوروني براي بهبودكيفيت[46-42] وكاهش پيچيدگيمحاسباتيدر كدكنندهها [52-47]. دراين تحقيق يك روش جديد براي كد كردن گفتار با نرخ بيت كم معرفي ميشود كه از پارامترهاي LSP براي استخراج و نگاشت ويژگيهاي سيگنالگفتار با استفاده از نوعي شبكة عصبي مصنوعي بنام شبكة خودسازمانده(SOM)3 استفاده ميكند. استفاده از اينروش نرخ بيتگفتار بازسازيشده را كاهش ميدهد، درحاليكه كيفيت سيگنال تفاوت آشكاري با گفتار اصلي ندارد. براي اندازهگيري كيفيت-گفتار سنتزشده از معيار ميانگين امتياز آرا داده شده4 (MOS) استفاده ميشود.

نتيجه گيري

مجموع مباحثي كه در اين تحقيق مورد ارزيابي قرار گرفتند، بهدنبال يك هدف ميباشند و آن كاهش نرخ بيت گفتار و فشردهسازي آن با استفاده از كدكنندههاي گفتار مبتني بر پيشبيني خطي(LPC) و بخصوص كدكننده استاندارد ارتش ايالات متحده 10-FS1015 LPC با روشي جديد ميباشد. در قسمت پردازش پارامترهايLPC كدكننده جديد و قبل از ارسال انديسهاي بردار-كد مربوط به هر يك از پارامترها، و در بخش چنديسازي برداري اين كدها از شبكه عصبي رقابتي استفاده شده است. تفاوت ديگر كدكننده جديد اين است كه بجاي كد كردن پارامترهاي LPC ابتدا اين پارامترها به ضرايبLSP يا LSF تبديل شده و سپس از اين ضرايب بجاي ضرايبLPC استفاده ميشود. اين تبديل با توجه به ويژگيهايي كه براي ضرايب LSP در فصل2 اشاره شد، موجب ميشود تا گفتار سنتز شده، گفتاري با كيفيت بهتر و با حساسيت كمتر نسبت به نويز و خطاي فشردهسازي باشد. شبكههاي عصبي كه در اين تحقيق بكار رفتهاند عبارتند از شبكه كوهنن و شبكهFuzzy ARTMAP ميباشند. نتايج بدست آمده در فصل 5 نشان ميدهد كه استفاده از شبكههاي عصبي رقابتي در كدكننده باعث كاهش نرخ بيت گفتار كدشده نسبت به كدكنند 10LPC- عادي ميشود و در عين حال باتوجه به معيار MOS و بهدليل استفاده از پارامترهايLSP، تفاوت كيفيت گفتار بدست آمده از كدكننده جديد با گفتار اصلي بسيار كمتر است.
دليل استفاده از دو شبكه عصبي در اين تحقيق، بكار بردن روشهاي مختلف براي دستيابي به حداكثر بهينهسازي و يافتن روشهاي بهتر براي فشردهسازي سيگنال گفتار است. مقايسه نتايج بدست آمده از شبيهسازي به دو روش فوق نشان ميدهد كه شبكهFuzzy ARTMAP نسبت به شبكه كوهنن كارآمدتر بوده وخطاي فشردهسازي آن نيز كمتر است. بنابراين گفتار بدست آمده از كدكنندهاي كه براي قسمت چنديسازي برداري آن از شبكه Fuzzy ARTMAP استفاده شدهاست، كيفيت بالاتري دارد. اين الگوريتم بهدليل ساختار فازي كه دارد ميتواند بجاي انتخاب تنها يك نورون برنده براي هر ورودي و تخصيص بيت به كلاس مربوط به آن نورون، احتمال تعلق هر ورودي به كلاسهاي نزديك به آن ورودي را تعيين و متناسب با آن احتمال درصدي از بيت را تخصيص ميدهد. بهاين ترتيب گفتار بازسازي شده، دقيقتر بوده و به گفتار ورودي كدكننده شباهت بيشتري خواهد داشت. به لحاظ كيفيت گفتار تا 5 درصد بهتر از موقعي است كه از شبكه كوهنن استفاده ميشود. تنها ضعف اين شبكه، كند بودن زمان يادگيري شبكه در صورت استفاده از دستهها يا كلاسهاي بالاست كه نيازمند پارامتر بزرگتر ميباشد. از آنجا كه استراتژي بكار رفته براي نرخ بيت در هردو شبكه يكسان در نظر گرفته شده است، دو روش فوق از لحاظ نرخ بيت فشردهسازي تفاوتي با هم ندارند ولي مقايسه سطوح MOS نتايج بدست آمده از دو شبكه، مؤيد اين مطلب است كه بكار بردن شبكه عصبي Fuzzy ARTMAP موجب بوجود آمدن گفتار سنتز شده با كيفيت بالاتر ميباشد. بدون شك به علت وجود سه پارامتر مختلف در شبكه Fuzzy ARTMAP ميتوان از تركيبهاي مختلفي از اين سه پارامتر براي تعيين دستهها يا كلاسهاي شبكه بكاررفته، استفادهكرد. دو ويژگي اساسي شبكههاي ART عبارتند از پايداري و انعطاف پذيري. پايداري به معناي عدم نوسان يك الگو در مراحل مختلف آموزش بين دستههاي مختلف ميباشد. انعطافپذيري اين شبكه بصورت توانايي شبكه در يادگيري الگوهاي جديد در هر يك از مراحل يادگيري، تعريف ميشود. وجود اين دو ويژگي در شبكه عصبي مورد بحث باعث كارآيي بهتر شبكه در كاربرهايي نظير دستهبندي ويژگيها، چنديكردن و… ميگردد.
با توجه به نتايج بدست آمده در فصل قبل مشاهده ميشود كه استفاده از شبكه عصبي SOM باعث كاهش نرخ بيت كدكردن سيگنال گفتار ميشود، درحاليكه كيفيت گفتار سنتز شده نسبت به كد كننده 10-LPCاصلي بهبود مييابد. طبق جدول 5-1 كه در فصل پنجم نشان داده شد، نرخ بيت قسمت واكدار گفتار حدود 2 درصد و نرخ بيت قسمت بيواك 33 درصد كاهش مييابد. همچنين طبق محاسبه اي كه براي نرخ بيت كلي كد كننده جديد در همان فصل انجام گرفت، نرخ بيت كدكننده جديد نسبت به نرخ بيت كد كننده اصلي كه مقدار آن kbps4/2 است، 21 درصد كاهش مييابد و به kbps 88/1ميرسد. از طرفي نتايج مربوط به سطوح MOS نشان ميدهد كه سطح MOS در صورت استفاده از شبكه عصبي كوهنن به 8/2 و در صورت استفاده از شبكه عصبي Fuzzy ARTMAP به 93/2 ميرسد. بنابراين اين روش ميتواند نرخ بيت را به همان اندازه كه در مرجع [4] بحث شده است كاهش دهد و از طرف ديگر سطح MOS در روش جديد، در صورت استفاده از شبكه Fuzzy ARTMAP نسبت به روشهاي بكار رفته در [2] و [4] نزديك 5 درصد بالاتر ميباشد. با مقايسه زمان اجراي عمليات كد كردن گفتار براي تعداد قابهاي گفتار معين نيز به اين نتيجه رسيديم كه مدت زمان انجام عمليات كد كردن گفتار در صورت استفاده از شبكه FuzzyARTMAP نسبت به زماني كه از شبكه كوهنن استفاده ميكنيم كمتر است. به عبارت ديگر الگوريتم Fuzzy ARTMAP سريعتر از الگوريتم كوهنن دستههاي مربوط به دادههاي ورودي را تشخيص داده و انديس مربوط به آن را براي قسمت سنتز كننده ارسال ميكند. استفاده از هر دو روش، باعث كاهش زمان كد كردن نسبت به كد كننده 01-LPC اصلي ميشود.

نحوه خرید

دانلود رایگان فایل
شما میتوانید تنها با یک کلید به راحتی فایل مورد نظر را دریافت کنید. 🙂

برای دسترسی به این فایل ابتدا باید اشتراک خریداری کنید. برای خرید اشتراک بر روی لینک زیر کلیک کنید.

ارتقاء عضویت

در صورت بروز هر گونه مشکل در روند خرید اینترنتی، بخش پشتیبانی کاربران آماده پاسخگویی به مشکلات و سوالات شما می باشد

راهنمای سایت

برخلاف سایت های دیگر که فایل ها را به صورت تکی می فروشند روال سایت ما این است که شما با عضویت در سایت ما میتوانید از تمام فایل های موجود استفاده کنید.

تمام مطالب سایت فقط برای اعضای سایت رایگان است.

نحوه عضویت در سایت