Kommunikasiyalarini rivojlantirish vazirligi muhammad al-xorazmiy nomidagi toshkent axborot texnologiyalari universiteti kompyuter injiniringi fakulteti

Download 407,17 Kb.

bet	8/9
Sana	02.06.2023
Hajmi	407,17 Kb.
	#948231

1 2 3 4 5 6 7 8 9

Bog'liq
213-18 Qahhorov Abbos

Chuqur organish va takrorlanadigan neyron tarmoqlari

Neyron tarmoqlari
Neyron tarmoqlari 1980-yillarning oxirida ASRda jozibali akustik modellashtirish usuli sifatida paydo bo'ldi. O'shandan beri asab tarmoqlari nutqni aniqlashning ko'plab jihatlarida, masalan, fonemalarni tasniflashda, fonemalarni ko'p ob'ektiv evolyutsion algoritmlar orqali tasniflash, so'zlarni ajratib olish, nutqni audiovizual ravishda aniqlash, audiovizual karnayni tanib olish va karnayni moslashtirish.
Neyron tarmoqlari xususiyatlarning statistik xususiyatlari to'g'risida HMMlarga qaraganda kamroq aniq taxminlar qilish va ularni nutqni tanib olish uchun jozibali tanib olish modellariga aylantiradigan bir nechta xususiyatlarga ega bo'lish. Nutq xususiyati segmentining ehtimolligini taxmin qilish uchun foydalanilganda, neyron tarmoqlari tabiiy va samarali tarzda kamsituvchi mashg'ulotlarga imkon beradi. Biroq, individual fonemalar va alohida so'zlar kabi qisqa vaqt birliklarini tasniflashda ularning samaradorligiga qaramay, erta neyron tarmoqlari vaqtincha bog'liqliklarni modellashtirish qobiliyati cheklanganligi sababli doimiy ravishda tanib olish vazifalari uchun kamdan-kam hollarda muvaffaqiyatli bo'lishdi.
Ushbu cheklovga yondashuvlardan biri neyron tarmoqlarni oldindan qayta ishlash, xususiyatlarni o'zgartirish yoki o'lchamlarni kamaytirish sifatida ishlatish edi. HMM asosida tan olinishdan oldin qadam. Biroq, yaqinda LSTM va shunga o'xshash takrorlanadigan neyron tarmoqlar (RNN) va vaqtni kechiktiradigan asab tarmoqlari (TDNN) ushbu sohada yaxshilangan ish faoliyatini namoyish etdi.

Chuqur o'rganish va takrorlanadigan neyron tarmoqlari
Chuqur neyron tarmoqlari va denoising Autoenkoderlar ham tergov qilinmoqda. Chuqur neyron tarmoq (DNN) - bu an sun'iy neyron tarmoq kirish va chiqish qatlamlari orasidagi birliklarning bir nechta yashirin qatlamlari bilan. Sayoz nerv tarmoqlariga o'xshash DNNlar murakkab bo'lmagan chiziqli munosabatlarni modellashtirishlari mumkin. DNN arxitekturalari kompozitsion modellarni yaratadi, bu erda qo'shimcha qatlamlar pastki qatlamlardan xususiyatlarni tarkib toptirishga imkon beradi, bu katta o'rganish qobiliyatini beradi va shu bilan nutq ma'lumotlarining murakkab naqshlarini modellashtirish imkoniyatini beradi.
DNNlarning katta lug'at nutqini tanib olishda muvaffaqiyati 2010 yilda sanoat tadqiqotchilari tomonidan akademik tadqiqotchilar bilan hamkorlikda amalga oshirildi, bu erda qaror daraxtlari asosida qurilgan kontekstga bog'liq HMM holatlariga asoslangan DNNning katta chiqish qatlamlari qabul qilindi. Microsoft Research kompaniyasining so'nggi Springer kitobida 2014 yil oktyabr oyidagi ushbu rivojlanish va zamonaviy darajadagi to'liq sharhlarni ko'ring. Nutqni avtomatik ravishda tanib olish va turli xil mashinalarni o'rganish paradigmalarining ta'sirini, xususan, shu jumladan qarang chuqur o'rganish, noto'g'ri maqolalar.
Ning asosiy tamoyillaridan biri chuqur o'rganish qo'lda ishlangan narsalarni yo'q qilishdir xususiyati muhandislik va xom xususiyatlardan foydalanish. Ushbu tamoyil birinchi marta "xom" spektrogramma yoki chiziqli filtr-bank xususiyatlari bo'yicha chuqur autoankoder arxitekturasida muvaffaqiyatli o'rganildi,^[76] uning Mel-Cepstral xususiyatlaridan ustunligini ko'rsatib, spektrogramlardan bir necha marta o'zgaruvchan o'zgarishlarni o'z ichiga oladi. So'zlashuvning haqiqiy "xom" xususiyatlari, to'lqin shakllari yaqinda juda katta miqyosdagi nutqni aniqlash natijalarini keltirib chiqardi.
Nutqni uchidan uchigacha avtomatik aniqlash
2014 yildan buyon "oxiridan oxirigacha" ASRga qiziqish katta. An'anaviy fonetik asosda (ya'ni, barchasi) HMMasosli model) yondashuvlari alohida komponentlar va talaffuz, akustik va til modeli. End-to-modellar birgalikda nutqni taniy oluvchining barcha tarkibiy qismlarini o'rganadilar. Bu juda muhimdir, chunki u o'quv jarayoni va tarqatish jarayonini soddalashtiradi. Masalan, a n-gramm til modeli HMM-ga asoslangan barcha tizimlar uchun talab qilinadi va odatda n-grammli til modeli bir necha gigabaytni xotirada oladi, ularni mobil qurilmalarda joylashtirish maqsadga muvofiq emas. Binobarin, zamonaviy tijorat ASR tizimlari Google va olma (2017 yil holatiga ko'ra) bulutda joylashtirilgan va qurilmadan farqli o'laroq mahalliy tarmoq ulanishini talab qiladi.
Uchidan oxirigacha ASRga birinchi urinish Connectionist vaqtinchalik tasnifi Tomonidan kiritilgan (CTC) asoslangan tizimlar Aleks Graves ning Google DeepMind va Navdeip Jaitly Toronto universiteti 2014 yilda. Model quyidagilardan iborat edi takrorlanadigan neyron tarmoqlari va CTC qatlami. Birgalikda RNN-CTC modeli talaffuz va akustik modelni birgalikda o'rganadi, ammo u tilni o'rganishga qodir emas shartli mustaqillik HMM ga o'xshash taxminlar. Binobarin, CTC modellari to'g'ridan-to'g'ri nutq akustikasini inglizcha belgilar bilan taqqoslashni o'rganishi mumkin, ammo modellar ko'plab keng tarqalgan imlo xatolariga yo'l qo'yadi va transkriptlarni tozalash uchun alohida til modeliga tayanishi kerak. Keyinchalik, Baidu juda katta ma'lumotlar to'plamlari bilan ishlashni kengaytirdi va xitoy mandarin va ingliz tillarida tijorat muvaffaqiyatlarini namoyish etdi. 2016 yilda, Oksford universiteti taqdim etilgan LipNet, RNN-CTC arxitekturasi bilan birlashtirilgan spatiotemporal konvulsiyalardan foydalangan holda, cheklangan grammatik ma'lumotlar to'plamidagi inson darajasidagi ko'rsatkichlardan ustun bo'lgan birinchi uchidan oxirigacha jumla darajasidagi lablarni o'qish modeli. Keng miqyosli CNN-RNN-CTC arxitekturasi 2018 yilga qadar taqdim etildi Google DeepMind inson mutaxassislaridan 6 baravar yuqori ko'rsatkichlarga erishish.
CTC-ga asoslangan modellarga alternativ yondashuv e'tiborga asoslangan modellardir. Diqqatga asoslangan ASR modellari bir vaqtning o'zida Chan va boshq. ning Karnegi Mellon universiteti va Google Brain va Bahdanau va boshq. ning Monreal universiteti 2016 yilda. "Tingla, ishtirok et va sehr" (LAS) deb nomlangan model, akustik signalni so'zma-so'z "tinglaydi", signalning turli qismlariga "e'tibor" beradi va transkriptni birma-bir belgi bilan "sehrlaydi". CTC-ga asoslangan modellardan farqli o'laroq, diqqatga asoslangan modellar shartli-mustaqillik taxminlariga ega emas va nutqni tanib oluvchining barcha tarkibiy qismlarini, shu jumladan talaffuz, akustik va til modelini bevosita o'rganishi mumkin. Bu shuni anglatadiki, tarqatish paytida cheklangan xotiraga ega dasturlar uchun juda amaliy bo'lgan til modelini olib yurishning hojati yo'q. 2016 yil oxiriga kelib, diqqat markazida bo'lgan modellar sezilarli muvaffaqiyatlarga erishdilar, shu jumladan CTC modellaridan ustunroq (tashqi til modeli bilan yoki bo'lmagan holda). LASning asl modelidan beri turli xil kengaytmalar taklif qilingan. Yashirin ketma-ketlik dekompozitsiyalari (LSD) tomonidan taklif qilingan Karnegi Mellon universiteti, MIT va Google Brain inglizcha belgilarga qaraganda tabiiyroq bo'lgan sub-so'z birliklarini to'g'ridan-to'g'ri chiqarish; Oksford universiteti va Google DeepMind labni o'qishni inson darajasidan yuqori darajada boshqarish uchun LAS-ni "Tomosha qilish, tinglash, qatnashish va imlo" (WLAS) ga kengaytirdi.

Xulosa
Nutqni aniqlash - tizimda gaplashadigan kirishni ta'minlaydigan texnologiya. Siz kompyuteringiz, telefoningiz yoki qurilmangiz bilan suhbatlashasiz va u sizga ba'zi bir harakatlarni tetiklash uchun kiritilgan so'zlardan foydalanadi. Texnologiya kiritish usuli kabi boshqa usullarni almashtirish, boshqa usullar bilan bosish yoki tanlash uchun ishlatilmoqda. Qurilmalar va dasturiy ta'minotni foydalanuvchilar uchun qulayroq qilish va samaradorlikni oshirish vositasidir.
Tibbiy sohada, robotlarda va hokazolarda nogironlar uchun yordam (nogironlarga yordam beradigan odamlarga yordam berish kabi), shuningdek, nutqni tan olishning ko'plab ilovalari va joylari mavjud. Yaqin kelajakda, deyarli har bir kishi, kompyuter va mobil telefonlar kabi umumiy qurilmalar orasida tarqalishi sababli nutqni tan olishga ta'sir qiladi.Ayrim smartfonlar nutqni tanishdan qiziqarli foydalanishadi. IPhone va Android qurilmalari bunga misoldir. Ularning yordamida siz "Call of Office" kabi og'zaki ko'rsatmalarni qabul qilib, kontaktga qo'ng'iroq qilishni boshlashingiz mumkin. Boshqa buyruqlar ham yoqilishi mumkin, masalan, "Bluetooth-ni yoqish".

Nutqni aniqlash muammolari Speech to Text (STT) deb nomlanadigan nashrida nutqni aniqlash, shuningdek, og'zaki so'zlarni matnga tarjima qilish uchun uzoq vaqt ishlatilgan. ViaVoice uning qutisiga aytganday, "Siz gaplashasiz, u turlari". Ammo biz bilamizki, STT bilan bog'liq bir muammo mavjud. 10 yildan ortiq vaqtdan beri ViaVoice ni sinab ko'rdim va bu mening kompyuterimda bir hafta davom etmadi. Nima uchun? Bu juda noto'g'ri edi va men ko'proq vaqt va energiyani gapirish va tuzatish uchun hamma narsani yozishdan ko'ra sarfladim. ViaVoice - sanoatda eng yaxshisidir, shuning uchun qolganlarni tasavvur qiling. Texnologiya rivojlangan va takomillashtirildi, lekin matnga murojaat qilish odamlarning savollariga javob bermoqda. Uning asosiy qiyinchiliklaridan biri - so'zlardagi odamlar orasida juda katta farq.Har bir tilda nutqni tan olish kerak emas, va shunga o'xshashlar odatda ingliz tilida ham qo'llab-quvvatlanmaydi. Natijada, nutqni aniqlash dasturini ishlatadigan qurilmalarning aksariyati faqat ingliz tilida ishlaydi.

Bir qator apparat talablari ma'lum hollarda nutqni aniqlashni qiyinlashtiradi. Fon shovqinini filtri qilish uchun yetarli aqlga ega bo'lgan mikrofonga ega bo'lishingiz kerak, lekin ayni paytda ovozni tabiiy ravishda qo'lga kiritish uchun etarlicha kuchli.Orqa fonning shovqini haqida gapirish, bu butun tizimning ishdan chiqishiga olib kelishi mumkin. Natijada, ko'p holatlarda, foydalanuvchining nazorati ostida bo'lgan shov-shuvlar tufayli nutq tan olinishi amalga oshirilmaydi.
Nutqni aniqlash, VoIP kabi yangi telefonlar va aloqa texnologiyalari uchun kirish usuli sifatida ommaviy matn kiritish uchun hosildorlik vositasidan ko'ra yaxshiroq bo'lishni isbotlaydi.

Download 407,17 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9