Распазнаванне маўлення

З пляцоўкі Вікіпедыя
Jump to navigation Jump to search

Распазнаванне маўлення – гэта міждысцыплінарнае падполе камп’ютарнай лінгвістыкі, якое займаецца распрацоўкай метадалогій і тэхналогій, што дазваляюць камп’ютару распазнаваць і пераўтвараць маўленне ў тэкст. Распазнаванне маўлення таксама вядома як ASR (англ.: automatic speech recognition — «аўтаматычнае распазнаванне маўлення») альбо проста STT (англ.: speech-to-text — «маўленне ў тэкст»). Сюды ўключаюцца веды і даследаванні ў галінах лінгвістыкі, інфарматыкі і электратэхнікі.

Некаторыя сістэмы распазнавання маўлення патрабуюць так званага «навучання». Гэты метад уяўляе сабой начытку пэўным дыктарам тэксту альбо асобнага слоўніка ў сістэму, пасля чаго сістэма аналізуе голас чалавека і выкарыстоўвае яго для далейшай дакладнай настройкі. Сістэмы, якія не выкарыстоўваюць метад навучання, называюцца «дыктаранезалежнымі».[1]

Прылады распазнавання маўлення ўключаюць такія галасавыя карыстальніцкія інтэрфейсы, як галасавы набор (напрыклад, «Дамашні званок»), маршрутызацыя званкоў (напрыклад, «Я жадаю зрабіць групавы званок»), кіраванне прадметамі хатняга ўжытку, пошук (напрыклад, знайсці падкаст, дзе былі ўжыты пэўныя словы), просты ўвод дадзеных (увод нумара банкаўскай карткі), падрыхтоўка структурных дакументаў (напрыклад, справаздача па радыялогіі), авіясфера (як правіла, так званы direct voice input – кіраванне некаторымі функцыямі самалёта простымі камандамі).

З тэхналагічнага погляду, распазнаванне маўлення мае моцную сувязь з хвалямі інавацый за апошнія гады. Прарывы ў такіх сферах, як глыбокае навучанне і Big Data далі важкія падставы для развіцця ASR увогуле. Поспехі ў плыні можна заўважыць не толькі па колькасці акадэмічных артыкулаў, але і па ўкараненні метадаў глыбокага навучання ў дачыненні да сістэм распазнавання маўлення. Такія пачвары сучаснага ІТ, як Google, Microsoft, IBM, Baidu, Apple, Amazon, Nuance, SoundHound, iFLYTEK прадставілі свае тэхналогіі распазнавання маўлення заснаванымі на метадах глыбокага навучання.

Ранняя праца[правіць | правіць зыходнік]

У 1952 годзе тры даследчыкі Bell Labs пабудавалі сістэму для распазнавання маўлення аднаго чалавека. Гэтая сістэма працавала паводле прынцыпу лакалізацыі фармант у энергетычным спектры кожнага выказвання.[2]

У дачыненні да маўлення Гунар Фант распрацаваў мадэль паводле тыпу «крыніца-фільтр» і апублікаваў яе ў 1960 годзе, што потым апынулася сапраўднай знаходкай.

На жаль, фінансаванне Bell Labs на некалькі год спынілася, калі ў 1969 годзе ўплывовы Джон Пірс напісаў адкрыты ліст, які крытыкаваў даследаванні па распазнаванні маўлення.[3] Такім чынам, Пірс спыніў грашовую падтрымку праэкта да моманту, пакуль Джон Фланаган не пераняў пасаду.

Рэдж Рэдзi, студэнт Стэнфардскага універсітэту, быў першым, хто працягнуў працаваць над распазнаваннем бесперапыннага маўлення ў канцы 60-х гадоў. Папярэднія ж сістэмы патрабавалі, каб дыктар рабіў паўзу пасля кожнага слова. Сістэма Рэдзі паспяхова выкарыстоўвалася ў шахматах.

Таксама прыкладна ў гэты час савецкія даследчыкі вынайшлі алгарытм дынамічнай трансфармацыі часавай шкалы (альбо DTW — Data Time Warping), які быў выкарыстаны для стварэння распазнавальніка, здольнага працаваць на 200 словах слоўніка.[4] Прынцып алгарытму DTW заключаецца ў апрацоўцы маўленчага сігнала шляхам дзялення яго на кароткія фрэймы (напрыклад, па 10 мс) і постапрацоўцы кожнага фрэйма асобна. Хаця DTW потым і будзе заменена больш познімі алгарытмамі, методыка падзелу сігналу на фрэймы стане падставай для далейшых алгарытмаў. Дасягненне дыктаранезалежнасці было галоўнай нявырашанай задачай даследчыкаў на працягу таго часу.

У канцы 1960-х гадоў Леанард Баўм распрацаваў матэматыку ланцугоў Маркава ў Інстытуце Аналізу Абароны. Праз дзесяць гадоў для распазнавання маўлення Джэймс Бэйкер і Джанет М. Бэйкер (студэнты Раджа Рэдзі) пачалі выкарыстоўваць Схаваныя Маркаўскія Мадэлі (HMM — Hidden Markov Model).[5] Джэймс Бэйкер даведаўся пра HMM, калі атрымоўваў вышэйшую адукацыю ў Інстытуце Аналізу Абароны падчас летняй практыкі. Выкарыстанне НММ дазволіла даследчыкам аб’яднаць розныя крыніцы ведаў, такія як акустыка, мова і сінтаксіс у адзіную імавернасную мадэль.

У сярэдзіне 1980-х гадоў IBM пад кіраўніцтвам Фрэда Элінэка стварылі пішучую машынку на галасавым кіраванні пад назвай Tangora, якая магла справіцца з 20000 слоў слоўніка.[6] Пры статыстычным падыходзе Элінэка звярталася менш увагі на эмуляцыю працэсаў распазнавання і разумення маўлення мозгам. Замест гэтага былі прыменены метады статыстычнага мадэлявання, падобныя да HMM. (група Элінэка сама незалежна выявіла прымяненне HMM да маўлення).[7] Аднак такі прарыў быў спрэчна сустрэты лінгвістамі, паколькі алгарытмы НММ былі занадта спрошчаныя для тлумачэння многіх агульных рысаў чалавечых моў.[8] Тым не менш, HMM апынуўся вельмі карысным сродкам для мадэлявання маўлення і стаў дамінуючым алгарытмам распазнавання маўлення ў 1980 годзе[9], цалкам замяніўшы папярэднія алгарытмы DTW.

Большая частка прагрэсу ў галіне належала новым магчымасцям камп’ютараў, якія ў той час развіваліся надзвычай інтэнсіўна. У канцы праграмы DARPA ў 1976 годзе, лепшым камп’ютарам для даследчыкаў быў PDP-10 з 4 Мб аператыўнай памяці. Каб дэкадаваць толькі 30 секунд маўлення, камп’ютарам патрабавалася ажно 100 хвілін.[10] Калі хуткасць камп’ютараў павялічылася, даследчыкі пачалі вырашаць больш складаныя праблемы, такія як вялікія слоўнікі, акустычная незалежнасць, шумная абстаноўка і гутарковае маўленне. Гэтае пераключэнне на больш складаныя задачы тлумачыла пладавітасць 1980-х гадоў як заслугу фінансавання DARPA. Так, быў дасягнуты прагрэс у дыктаранезалежнасці спачатку шляхам навучання на вялікай колькасці розных дыктараў, а потым праз адаптацыю сістэмы пад пэўнага дыктара падчас дэкадавання. Далейшае зніжэнне частаты памылак у словах стала магчымым дзякуючы замене акустычных мадэляў максімальнага падабенства дыскрымінацыйнымі.[11]

У сярэдзіне 1980-х гадоў з’явіліся мікрапрацэсары для распазнавання маўлення. Напрыклад, RIPAC, дыктаранезалежны чып для бесперапыннага маўлення (створаны для тэлефонных сэрвісаў), быў прадстаўлены ў Нідэрландах у 1986 годзе.[12] Ён быў распрацаваны CSELT/Elsag і выраблены SGS.[13].

Практычнае распазнаванне маўлення[правіць | правіць зыходнік]

У 1990-я гады з’явіліся першыя камерцыйна паспяховыя тэхналогіі распазнавання маўлення. Двума самымі раннімі прадуктамі былі Dragon Dictate, спажывецкі прадукт, выпушчаны ў 1990 годзе па цане $ 9000, і распазнавальнік ад Kurzweil Applied Intelligence, выпушчаны ў 1987 годзе.[14][15] У 1992 годзе AT&T разгарнула службу Voice Recognition Call Processing для маршрутызацыі тэлефонных званкоў без удзелу чалавека-аператара.[16] Гэтая тэхналогія была распрацавана Лоўрэнсам Рабінерам і іншымі з Bell Labs. У гэты час слоўнікавы запас тыповай сістэмы камерцыйнага распазнавання маўлення ўжо перавышаў сярэдні чалавечы слоўнікавы запас. Былы студэнт Раджа Рэдзі, Хуэдонг Хуанг, распрацаваў сістэму Sphinx-II пры CMU. Сістэма Sphinx-II была першай, якая не залежала ад дыктара, мела вялікі слоўнікавы запас, бесперапыннае распазнаванне маўлення і, акрамя таго, мела найвышэйшыя адзнакі па ацэнцы DARPA.

Lernout & Hauspie, бельгійская кампанія па распазнаванні маўлення, набыла некалькі іншых кампаній, у тым ліку Kurzweil Applied Intelligence ў 1997 годзе і Dragon Systems ў 2000 годзе. Тэхналогіі L&H былі выкарыстаны ў Windows XP. L&H былі лідарамі галіны, пакуль у 2001 годзе фінансавы скандал не паклаў канец кампаніі. Маўленчая тэхналогія L&H была набыта ScanSoft, якія ў 2005 годзе пераўтварыліся ў Nuance.[17] Apple першапачаткова ліцэнзіравалі праграмны софт ад Nuance для забеспячэння лічбавага дапаможніка Siri магчымасцю распазнавання маўлення.

У 2000-я гады DARPA стала спонсарам дзвюх праграм распазнавання маўлення: Effective Affordable Reusable Speech-to-Text (EARS) у 2002 годзе і Global Autonomous Language Exploitation (GALE). EARS фінансавалі маўленчы тэлефонны корпус, які змяшчаў 260 гадзін запісаных размоў больш чым 500 дыктарамі.[18] GALE жа была сканцэнтравана на вяшчанні навін на арабскай і кітайскай мовах.

Першая спроба кампаніі Google ў распазнаванні маўлення адбылася ў 2007 годзе пасля найму некаторых даследчыкаў з Nuance.[19] Першым прадуктам быў GOOG-411, служба кіравання тэлефоннымі званкамі. Запісы, зробленыя праз GOOG-411 далі каштоўныя дадзеныя, якія дапамаглі Google палепшыць свае сістэмы распазнавання. Галасавы пошук Google зараз падтрымлівае больш, чым 30 моў.

Сучасныя сістэмы[правіць | правіць зыходнік]

У пачатку 2000-х гадоў у распазнаванні маўлення дагэтуль дамінавалі традыцыйныя падыходы: напрыклад, Схаваныя Маркаўскія Мадэлі, спалучаныя са штучнымі нейроннымі сеткамі прамой дыстрыбуцыі (feedforward artificial neural networks).[20] Сёння, аднак, многія аспекты распазнавання маўлення былі зроблены прымусова глыбокім метадам навучання (deep learning) пад назвай LSTM (Long short-term memory) - рэкурэнтнай нейронавай сеткі, апублікаванай Зэппам Хохрайтэрам & Юргенам Шмідхуберам у 1997 годзе.[21] LSTM пазбегла праблемы знікнення градыенту і магла спраўляцца з задачамі «Вельмі Глыбокага Навучання»[22], якія патрабуюць успамінаў пра падзеі, якія адбыліся тысячы дыскрэтных часовых крокаў назад, што вельмі важна для прамовы. У 2015 годзе сістэма распазнавання маўлення Google перажыла рэзкі скачок прадукцыйнасці на 49% праз CTC(Connectionist Temporal Classification)-навучаную LSTM[23], якая цяпер даступная праз Google Voice для ўсіх карыстальнікаў смартфонаў.

Выкарыстанне глыбокіх нерэкурэнтных сетак у дачыненні да акустычнага мадэлявання было прадстаўлена ў 2009 Джэфры Хінтанам і яго студэнтамі з Універсітэта Таронта, а таксама Лі Дэнам[24] and colleagues at Microsoft Research, initially in the collaborative work between Microsoft and University of Toronto which was subsequently expanded to include IBM and Google (hence "The shared views of four research groups" subtitle in their 2012 review paper).[25] і яго калегамі з Microsoft Research. Кіраўнік па даследаванням Microsoft назваў гэта новаўвядзенне «найболей рэзкім змяненнем у дакладнасці з 1979 года».[26] У адрозненні ад стабільных паступовых паляпшэнняў на працягу апошніх некалькіх дзесяцігоддзяў, прымяненне глыбокага навучання знізіла частату слоўных памылак на 30%.[26] Гэта новаўвядзенне было хутка прынята ва ўсіх магчымых сферах. Далей даследчыкі пачалі выкарыстоўваць метады глыбокага навучання таксама і для мадэлявання мовы.

У доўгай гісторыі распазнавання маўлення, як дробныя, так і глыбокія нейронныя сеткі былі даследаваны на працягу 1980-х, 1990-х і некалькі гадоў у 2000-я гады.[27][28][29] Але гэтыя метады не маглі параўнацца з тэхналогіяй Гаўссаўскай сумесі размеркавання/Схаванай Маркаўскай мадэллю (GMM-НММ), заснаванай на дыскрымінацыйных генератыўных мадэлях маўлення.[30] Шэраг ключавых цяжкасцяў быў метадалагічна прааналізаваны ў 1990-х гадах. Такія праблемы, як памяншэнне градыенту (gradient diminishing)[31], слабая структура часовай карэляцыі ў нейронавых мадэлях, адсутнасць вялікіх навучальных дадзеных і вялікай вылічальнай магутнасці ў тыя дні азадачыла большасць даследчыкаў, якія былі вымушаны адступіць ад канцэпцыі нейронавых сетак, займаючыся генератыўнымі падыходамі мадэлявання.[32][33] Але ў 2009-2010 гадах, сітуацыя змянілася: Хінтан і Дэн у супрацоўніцтве з калегамі Універсітэту Таронта, Microsoft, Google і IBM адрадзілі прымяненне глыбокіх нейронавых сетак у дачыненні да распазнавання маўлення.[34][35][36][37]

Мадэлі, метады і алгарытмы[правіць | правіць зыходнік]

Акустычнае мадэляванне і моўнае мадэляванне з’яўляюцца важнымі часткамі сучасных статыстычных алгарытмаў распазнавання маўлення. Схаваныя Маркаўскія Мадэлі шырока выкарыстоўваюцца ў шэрагу сістэм. Моўнае мадэляванне таксама выкарыстоўваецца ў шмат іншых сферах, такіх як класіфікацыя дакументаў ці статыстычны машынны пераклад.

Схаваныя Маркаўскія Мадэлі[правіць | правіць зыходнік]

Сучасных універсальных сістэм распазнавання прамовы на аснове схаваных Маркоўскіх мадэляў. Гэта статыстычныя мадэлі, якія даюць на выхадзе паслядоўнасці знакаў або колькасці. Сістэмай гидрометеомониторинга выкарыстоўваюцца ў распазнаванні прамовы, таму што маўленчай сігнал можна разглядаць як кавалкава-стацыянарнага сігналу або кароткага часу стацыянарнага сігналу. У кароткія тэрміны (напрыклад, 10 мілісекунд), гаворка можа быць аппроксимирован стацыянарным працэсам. Гаворка можа разглядацца як Маркоўская мадэль для многіх выпадковых мэтаў.

Яшчэ адна прычына, чаму HMM карыстаюцца папулярнасцю, заключаецца ў тым, што мадэлі могуць быць навучаны аўтаматычна. Акрамя таго, яны дастаткова простыя для фармалізацыі.

Алгарытм дынамічнай трансфармацыі часовой шкалы (DTW)[правіць | правіць зыходнік]

Алгарытм дынамічнай трансфармацыі часовай шкалы (альбо DTW) гістарычна выкарыстоўваўся ў распазнаванні маўлення, але зараз ён заменены на больш паспяховы HMM падыход.

DTW ўяўляе сабой алгарытм для вымярэння падабенства паміж двума паслядоўнасцямі, якія могуць змяняцца па часу або хуткасці. Напрыклад, падабенства ў манеры хаджэння будзе выяўлена нават тады, калі ў адным відэа адзін чалавек ідзе павольна, а другі ідзе хутчэй, або нават пры наяўнасці паскарэнняў і тармажэнняў на працягу аднаго назірання. DTW ўжываецца да відэа, аўдыё і графікі, але на самой справе, любыя дадзеныя, якія могуць быць ператвораныя ў лінейнае прадстаўленне, могуць быць прааналізаваны з дапамогай DTW.

Нейронныя сеткі[правіць | правіць зыходнік]

Нейронавыя сеткі з'явіліся як прывабны падыход да акустычнага мадэлявання ASR ў канцы 1980-х гадоў. З тых часоў, нейронавыя сеткі выкарыстоўваліся ў многіх аспектах распазнавання маўлення, такіх як класіфікацыя фанэмы[38], распазнавання ізаляванага слова[39], распазнаванне аўдыёвізуальнага маўлення, аўдыёвізуальныя распазнаванне дыктара і адаптацыя да пэўных дыктараў.

У адрозненне ад HMM, нейронавыя сеткі не робяць ніякіх здагадак аб функцыі статыстычных уласцівасцей і маюць некалькі якасцяў, што робіць іх прывабнымі мадэлямі для распазнавання маўлення. Пры выкарыстанні нейрасетак для ацэнкі верагоднасці пэўнага гукавога сегмента дыскрымінацыйнае навучанне робіцца натуральным і эфектыўным. Аднак, нягледзячы на іх эфектыўнасць у класіфікацыі кароткатэрміновых часовых адзінак (напрыклад, асобных фанем і слоў)[40], нейронавыя сеткі рэдка бываюць удалымі для бесперапынных задач распазнавання, у асноўным з-за адсутнасці здольнасці мадэляваць часовыя залежнасці.

Аднак нядаўнія LSTM Рэкурэнтныя Нейронныя Сеткі (RNN) і Нейронныя Сеткі Затрымкі Часу (TDNN) паказалі сябе здольнымі ідэнтыфікаваць скрытыя тэрміновыя залежнасці і карыстацца гэтай інфармацыяй для выканання разнастайных задач па распазнаванню маўлення.[21][41][42] and Time Delay Neural Networks(TDNN's)[43]

Глыбокія сеткі прамой дыстрыбуцыі (DNN)[правіць | правіць зыходнік]

Поспех DNN у распазнаванні маўлення вялікага слоўніка адбыўся ў 2010 годзе з дапамогай прамысловых і навуковых даследчыкаў. Тады былі прыняты вялікія выходныя пласты DNN на аснове залежных ад кантэксту станаў HMM, пабудаваных дрэвамі рашэнняў.[44][45] [46]

Адным з асноватворных прынцыпаў глыбокага навучання з'яўляецца скасаванне ручнога стварэння прыкмет і выкарыстоўванне неапрацаваных прыкмет («raw» features). Гэты прынцып упершыню быў паспяхова даследаваны ў архітэктуры глыбокага аўтакадавальніка ў дачыненні да «сырой» спектраграмы, паказаўшы сваю перавагу над Мел-Кэпстральнымі прыкметамі[47], якія ўтрымліваюць некалькі этапаў фіксаванай трансфармацыі з спектраграмы. Сапраўдныя «сырыя» прыкметы («raw» features of speech) маўлення (сігналы) зусім нядаўна паказалі сваю выдатную прымяняльнасць у выніках распазнавання.[48]

Распазнаванне маўлення «ад канца да канца»[правіць | правіць зыходнік]

З 2014 года было праведзена шмат даследаванняў, зацікаўленых у так званым «end-to-end» ASR (распазнаванні маўлення «ад канца да канца»). Традыцыйныя падыходы, пабудаваныя на фанетычнай аснове (маюцца на ўвазе Схаваныя Маркаўскія Мадэлі) патрабавалі асобныя кампаненты і навучанне пад тое альбо іншае вымаўленне, акустычныя і моўныя мадэлі. Мадэлі ‘End-To-End’ сумяшчаюць усе кампаненты маўленчага распазнавальніка. Гэта дастаткова каштоўная асаблівасць, таму што яна спрашчае працэс навучання і працэс размяшчэння. Напрыклад, N-грамная моўная мадэль патрабуецца для ўсіх HMM. А такая тыповая мадэль часта займае некалькі гігабайтаў памяці, што робіць яе непрактычнай для размяшчэння на мабільных прыладах.[49] Такім чынам, сучасныя камерцыйныя ASR сістэмы ад Google і Apple (па стане на 2017 г.) разгорнуты на воблаку і патрабуюць падлучэнняў да сеткі, у адрозненні ад размяшчэння на самім устройстве.

Першай спробай End to End ASR была выканана з дапамогай Нейрасеткавай тэмпаральнай класіфікацыі (СТС), уведзенай Алексам Грэйвсам з Google DeepMind і Наўдзіпам Джэйтлі з Універсітэту Таронта[50]. Мадэль складалася з рэкуррэнтных нейронавых сетак і пласта СТС. Мадэль RNN-CTC сумесна вывучае вымаўленчую і акустычную мадэль разам, аднак ён не здольны вывучаць саму мову падобна HMM. Такім чынам, мадэль СТС можа непасрэдна ператвараць гукі прамовы ў англійскія сімвалы, але такія мадэлі робяць шмат арфаграфічных памылак, таму павінны спадзявацца на асобную моўную мадэль для вырашэння арфаграфічных нюансаў.

Альтэрнатыўны падыход да мадэляў CTC – увага-заснаваныя мадэлі (attention-based models). Адначасова ў 2016 годзе такія мадэлі былі прадстаўлены Чэнам і інш. з універсітэту Меллона-Карнэгі і Google Brain, а таксама Bahdanaua і інш. з Манрэальскага ўніверсітэта.[51][52] Мадэль пад назвай "Listen, Attend and Spell" (LAS) літаральна «слухае» гукавы сігнал, «звяртае ўвагу» да розных частак сігналу і адначасова «піша» транскрыпцыю пачутага. У адрозненні ад мадэляў СТС, увага-заснаваныя мадэлі не маюць здагадак аб умоўнай незалежнасці і могуць вывучыць усе кампаненты распазнавальніка маўлення, непасрэдна ўключаючы вымаўленне, акустычную і моўную мадэлі. Гэта азначае, што падчас устаноўкі, няма неабходнасці «насіць» з сабой моўную мадэль, што робіць распрацоўку вельмі практычнай для размяшчэння на ўстройствах з абмежаваным аб'ёмам памяці. У апошнія гады дадзеныя тэхналогія буйна развіваюцца і з моманту стварэння LAS-мадэлі былі прапанаваны такія мадэлі, як LSD (Latent Sequence Decompositions) і WLAS ("Watch, Listen, Attend and Spell", мадэль, здольная «чытаць па вуснах»).[53][54]

Прымяненне[правіць | правіць зыходнік]

Паспяховымі прыкладамі выкарыстання тэхналогіі распазнавання маўлення ў мабільных прыладах з'яўляюцца: увод адраса голасам у Яндекс.Навігатары, галасавы пошук Google Now, галасавыя асістэнты ад Яндэкс (Аліса) і Google (Siri) і многае іншае. Акрамя мабільных прылад, тэхналогія распазнавання прамовы знаходзіць шырокае распаўсюджванне ў іншых сферах:

  • Тэлефанія: аўтаматызацыя апрацоўкі ўваходных і выходных званкоў шляхам стварэння галасавых сістэм самаабслугоўвання ў прыватнасці для атрымання даведачнай інфармацыі і кансультавання, замовы паслуг / тавараў, змены параметраў дзеючых паслуг, правядзення апытанняў, анкетавання, збору інфармацыі, інфармавання і любыя іншыя сцэнарыі;
  • Рашэнні "Разумны дом": галасавой інтэрфейс кіравання сістэмамі «Разумны дом»
  • Бытавая тэхніка і робаты: галасавой інтэрфейс электронных робатаў; галасавое кіраванне бытавой тэхнікай і г.д;
  • Дэсктопы і ноўтбукі: галасавы ўвод у камп’ютарных гульнях і прыкладаннях;
  • Аўтамабілі: галасавое кіраванне ў салоне аўтамабіль - напрыклад, сістэма навігацыі;
  • Сацыяльныя сэрвісы для людзей з абмежаванымі магчымасцямі.[55][56][57][58]
  • Медыцына: аўтаматызацыя складання/рэдагавання медыцынскай дакументацыі, частка тэрапеўтычнага курса для пацыентаў з праблемамі памяці.[59]  

Дадатковая інфармацыя[правіць | правіць зыходнік]

Канферэнцыі і часопісы
Папулярныя канферэнцыі распазнавання маўлення, якія праводзяцца кожны год ці два ўключаюць SpeechTEK і SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, а таксама IEEE ASRU. Канферэнцыі ў галіне апрацоўкі натуральнай мовы (NLP), такія як ACL, NAACL, EMNLP і HLT, пачынаюць уключаць дакументы і па апрацоўцы маўлення. Важныя часопісы ўключаюць IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, and Speech Communication.Кнігі

Кнігі, падобныя да "Fundamentals of Speech Recognition" Лоўрэнса Рабінэра могуць быць карыснымі для атрымання некаторых базавых ведаў, аднак кнігі такіх гадоў (1993) ужо лічацца значна ўстарэлымі на фоне сучасных ведаў. Дадаткова добрай крыніцай можа быць "Statistical Methods for Speech Recognition" Фрэдэрыка Йелінэка i "Spoken Language Processing (2001)" Хуэдонга Хуанга. і г.д. Нядаўна аднаўлёная кніга "Speech and Language Processing (2008)", напісаная Жураўскім і Мартынам дэманструе базу і сучасны (на той момант) стан ASR.Добрае і даступнае ўвядзенне ў тэхналогію распазнавання маўлення і яе гісторыю раскрываецца ў кнізе "The Voice in the Machine. Building Computers That Understand Speech" Роберта Піракцыні (2012). Адносна сучаснай кнігай распазнавання маўлення з'яўляецца «Automatic Speech Recognition: A Deep Learning Approach» (Выдавецтва: Springer), напісаная Д. Ю. і Л. Дэнге (2014)[60]. Кніга змяшчае матэматычна арыентаваныя падрабязнасці аб тым, як метады глыбокага навучання ўспадкаваны і рэалізаваны ў сучасных сістэмах распазнавання маўлення на аснове DNN і звязаныя з імі метадамі глыбокага навучання.[61]

Спасылкі[правіць | правіць зыходнік]

  1. Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation. Fifthgen.com. Архівавана з першакрыніцы 11 лістапада 2013. Праверана 15 чэрвеня 2013.
  2. Juang, B. H.; Rabiner, Lawrence R.. Automatic speech recognition–a brief history of the technology development. p. 6. http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 17 January 2015. 
  3. Pierce, John R. (1969). "Whither speech recognition?". Journal of the Acoustical Society of America 46 (48): 1049. doi:10.1121/1.1911801. Bibcode1969ASAJ...46.1049P. 
  4. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springer Handbook of Speech Processing. Springer Science & Business Media. ISBN 3540491252. 
  5. First-Hand:The Hidden Markov Model - Engineering and Technology History Wiki. Архівавана з першакрыніцы 3 красавіка 2018. Праверана 1 мая 2018.
  6. Pioneering Speech Recognition. Архівавана з першакрыніцы 19 лютага 2015. Праверана 18 студзеня 2015.
  7. James Baker interview. Архівавана з першакрыніцы 28 жніўня 2017. Праверана 9 лютага 2017.
  8. A Historical Perspective of Speech Recognition. Communications of the ACM. Архівавана з першакрыніцы 20 студзеня 2015. Праверана 20 студзеня 2015.
  9. Juang, B. H.; Rabiner, Lawrence R.. Automatic speech recognition–a brief history of the technology development. p. 10. http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 17 January 2015. 
  10. When Cole talks, computers listen , Sarasota Journal (8 April 1980). Праверана 23 лістапада 2015.
  11. Morgan, Nelson; Cohen, Jordan; Krishnan, Sree Hari; Chang, S; Wegmann, S (2013). Final Report: OUCH Project (Outing Unfortunate Characteristics of HMMs). 
  12. Cecinati, R; Ciaramella, A; Venuti, G; Vicenzi, C (February 1987). "A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition". CSELT Technical Reports 15 (1). 
  13. MIT News: Low power chip speech recognition', 2017.
  14. Speech Recognition Through the Decades: How We Ended Up With Siri. Архівавана з першакрыніцы 13 студзеня 2017. Праверана 28 ліпеня 2017.
  15. Ray Kurzweil biography. KurzweilAINetwork. Архівавана з першакрыніцы 5 лютага 2014. Праверана 25 верасня 2014.
  16. Juang, B.H.; Rabiner, Lawrence. Automatic Speech Recognition – A Brief History of the Technology Development. http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 28 July 2017. 
  17. Nuance Exec on iPhone 4S, Siri, and the Future of Speech. Tech.pinions (10 кастрычніка 2011). Архівавана з першакрыніцы 19 лістапада 2011. Праверана 23 лістапада 2011.
  18. Switchboard-1 Release 2. Архівавана з першакрыніцы 11 ліпеня 2017. Праверана 26 ліпеня 2017.
  19. The Power Of Voice: A Conversation With The Head Of Google's Speech Technology. Архівавана з першакрыніцы 21 ліпеня 2015. Праверана 21 ліпеня 2015.
  20. Herve Bourlard and Nelson Morgan, Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
  21. 21,0 21,1 Hochreiter, S; Schmidhuber, J (1997). "Long Short-Term Memory". Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. 
  22. Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks 61: 85–117. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. 
  23. Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369–376.
  24. Li Deng. Li Deng Site.
  25. NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  26. 26,0 26,1 Scientists See Promise in Deep-Learning Programs , New York Times (23 November 2012). Праверана 20 студзеня 2015.
  27. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
  28. T. Robinson. (1992) A real-time recurrent error propagation network word recognition system Архівавана 3 верасня 2017 года., ICASSP.
  29. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing."
  30. Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "Developments and Directions in Speech Recognition and Understanding, Part 1". IEEE Signal Processing Magazine 26 (3): 75–80. doi:10.1109/MSP.2009.932166. Bibcode2009ISPM...26...75B. 
  31. Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Архівавана 6 сакавіка 2015 года., Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.
  32. Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.
  33. Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analysis of the correlation structure for a neural predictive model with application to speech recognition". Neural Networks 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2. 
  34. Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; et al. (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups". IEEE Signal Processing Magazine 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. Bibcode2012ISPM...29...82H. 
  35. Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing: New types of deep neural network learning for speech recognition and related applications: An overview. pp. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. 
  36. Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  37. Keynote talk: "Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014 (by Li Deng).
  38. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "Phoneme recognition using time-delay neural networks". IEEE Transactions on Acoustics, Speech and Signal Processing 37 (3): 328–339. doi:10.1109/29.21701. 
  39. Wu, J.; Chan, C. (1993). "Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics". IEEE Transactions on Pattern Analysis & Machine Intelligence 15 (11): 1174–1185. doi:10.1109/34.244678. 
  40. S. A. Zahorian, A. M. Zimmer, and F. Meng, (2002) "Vowel Classification for Computer based Visual Feedback for Speech Training for the Hearing Impaired," in ICSLP 2002
  41. Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks". Proceedings of IJCAI. http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf. 
  42. Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Speech recognition with deep recurrent neural networks". arΧiv:1303.5778 [cs.NE].  ICASSP 2013.
  43. Waibel, Alex (1989). "Modular Construction of Time-Delay Neural Networks for Speech Recognition". Neural Computation 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf. 
  44. Yu, D.; Deng, L.; Dahl, G. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition". NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 
  45. Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Signal Processing 20 (1): 30–42. doi:10.1109/TASL.2011.2134090. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5740583. 
  46. Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013.
  47. L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech.
  48. Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR". Interspeech 2014. 
  49. Jurafsky, Daniel (2016). Speech and Language Processing. 
  50. Graves, Alex (2014). "Towards End-to-End Speech Recognition with Recurrent Neural Networks". ICML. 
  51. Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition". ICASSP. 
  52. Bahdanau, Dzmitry (2016). "End-to-End Attention-based Large Vocabulary Speech Recognition". arΧiv:1508.04395 [cs.CL]. 
  53. Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "Latent Sequence Decompositions". arΧiv:1610.03035 [stat.ML]. 
  54. Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". arΧiv:1611.05358 [cs.CV]. 
  55. Overcoming Communication Barriers in the Classroom. MassMATCH (18 сакавіка 2010). Архівавана з першакрыніцы 25 ліпеня 2013. Праверана 15 чэрвеня 2013.
  56. Speech recognition for disabled people. Архівавана з першакрыніцы 4 красавіка 2008.
  57. Friends International Support Group
  58. Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "Speech Recognition Technology for Disabilities Education". Journal of Educational Technology Systems 33 (2): 173–84. 
  59. Suominen, Hanna; Zhou, Liyuan; Hanlen, Leif; Ferraro, Gabriela (2015). "Benchmarking Clinical Speech Recognition and Information Extraction: New Data, Methods, and Evaluations". JMIR Medical Informatics 3 (2): e19. doi:10.2196/medinform.4321. PMID 25917752. 
  60. Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer). 
  61. Deng, Li; Yu, Dong (2014). "Deep Learning: Methods and Applications". Foundations and Trends in Signal Processing 7 (3–4): 197–387. doi:10.1561/2000000039. http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf.