Распазнаванне маўлення

З пляцоўкі Вікіпедыя
Jump to navigation Jump to search

Распазнанне маўлення – гэта міждысцыплінарнае падполе камп’ютарнай лінгвістыцы, якое займаецца распрацоўкай метадалогій і тэхналогій, якія дазваляюць камп`ютару распазнаваць і перакладаць маўленчую мову ў тэкст. Распазнанне маўлення таксама вядома як ASR (“аўтаматычнае распазнаванне маўлення”) альбо проста SST (“маўленне ў тэкст”). Сюды ўключаюцца веды і даследаванні ў галінах лінгвістыцы, інфарматыцы і электратэхніцы.

Некаторыя сістэмы распазнавання маўлення патрабуюць так званае “навучанне”. Гэты метад уяўляе сабой чытанне пэўным аратарам тэкст альбо асобны слоўнік у сістэму, пасля чаго сістэма аналізуе пэўны голас чалавека і выкарыстоўвае яго для далейшай дакладнай настройкі. Сістэмы, якія не выкарыстоўваюць метад навучання, называюцца “дыктаранезалежнымі”.[1]

Прылады распазнання маўлення ўключаюць такія галасавыя карыстальніцкія інтэрфейсы, як галасавы набор (напрыклад, “Дамашні званок”), маршрутызацыя званкоў (напрыклад, “Я жадаю зрабіць групавы званок”), кіраванне прадметамі хатняга ўжытку, пошук ( напрыклад, знайсці падкаст, дзе былі ўжыўлены пэўныя словы), просты ўвод дадзеных ( увод нумара банкаўскай карткі), падрыхтоўка структураваных дакументаў (напрыклад, справаздача па радыялогіі), авіясфера (як правіла, так званы direct voice input – кіраванне некаторымі функцыямі самалёту простымі камандамі).

З тэхналагічнага погляду, распазнанне маўлення мае моцную сувязь з хвалямі інавацый за апошнія гады. Прарывы ў такіх сферах, як глыбокае навучанне і Big Data далі важкія падставы для развіцця ASR увогуле. Поспехі ў плыні можна заўважыць не толькі па колькасці акадэмічных артыкулаў, але і па ўкараненню метадаў глыбокага навучання ў дачыненні да сістэм распазнання маўлення. Такія пачвары сучаснага ІТ, як Google, Microsoft, IBM, Baidu, Apple, Amazon, Nuance, SoundHound, iFLYTEK прадставілі свае тэхналогіі распазнання маўлення заснаванымі на метадах глыбокага навучання.

Ранняя праца[правіць | правіць зыходнік]

У 1952 годзе тры даследчыкі Bell Labs пабудавалі сістэму для распазнання маўлення аднаго чалавека. Гэтая сістэма працавала па прынцыпу лакалізацыі фармант у энергетычным спектры кожнага выказвання.[2]

У дачыненні да маўлення Гунар Фант распрацаваў мадэль па тыпу “крыніца-фільтр” і апублікаваў яе ў 1960 годзе, што потым апынулася сапраўднай знаходкай.

На жаль, фінансаванне Bell Labs на некалькі год спынілася, калі ў 1969 yплывовы Джон Пірс напісаў адкрытае пісьмо, якое крытыкавала даследаванні па распазнанню маўлення.[3] Такім чынам, Пірс спыніў грашовую падтрымку праэкту да моманту, пакуль Джон Фланаган не пераняў пасаду.

Рэдж Рэдзi, студэнт Стэнфардаўскага Універсітэту, быў першым, хто працягнуў працаваць над няспынным распазнаннем маўлення ў канцы 60-ых. Папярэднія сістэмы жа патрабавалі, каб дыктар рабіў паўзу пасля кожнага слова. Сістэма Рэдзі паспяхова выкарыстоўвалася ў шахматах.

Таксама прыкладна ў гэты час савецкія даследчыкі вынайшлі алгарытм дынамічнай трансфармацыі часовай шкалы (альбо DTW – Data Time Warping ), які быў выкарыстаны для стварэння распазнавацеля, здольнага працаваць на 200 слоў слоўніка.[4] Прынцып алгарытму DTW заключаецца ў апрацоўцы маўленчага сігнала шляхам дзялення яго на кароткія фрэймы (напрыклад, па 10ms), і пост-апрацоўцы кожнага фрэйма асобна. Хаця, DTW потым і будзе заменена больш познімі алгарытмамі, методыка падзелу сігналу на фрэймы стане падставай для далейшых алгарытмаў. Дасягненне дыктаранезалежнасці было галоўнай нявырашанай задачай даследчыкаў на працягу таго часу.

У канцы 1960-х гадоў Леанард Баум распрацаваў матэматыку ланцугоў Маркава ў Інстытуце Аналізу Абароны. Праз дзесяць гадоў для распазнання маўлення Джэймс Бэйкер і Джанет М. Бэйкер (студэнты Раджа Рэддзі) пачалі выкарыстоўваць Схаваныя Маркаўскія Мадэлі (HMM – Hidden Markov Model).[5] Джэймс Бэйкер даведаўся пра HMM на працягу летняй практыцы ў Інстытуце Аналізу Абароны падчас яго вышэйшай адукацыі. Выкарыстанне НММ дазволіла даследчыкам аб'яднаць розныя крыніцы ведаў, такія як акустыку, мову і сінтаксіс у адзінай імавернаснай мадэлі.

Пад кіраўніцтвам Фрэда Элінэка, IBM стварылі пішучую машынку на галасавым кіраванні пад назвай Tangora, якая магла справіцца з 20000 слоў слоўніка ў сярэдзіне 1980-х гг.[6] Пры статыстычным падыходзе Элінэка звярталася менш увагі на эмуляцыю працэсаў распазнання і разумення мозгам маўлення. Замест гэтага былі прыменены метады статыстычнага мадэлявання, падобныя HMM. (група Элінэка сама незалежна выявіла прымяненне HMM да маўлення).[7] Аднак такі прарыў быў спрэчна сустрэты лінгвістамі, паколькі алгарытмы НММ былі занадта спрошчаныя для тлумачэння многіх агульных чорт чалавечых моў.[8] Тым не менш, HMM апынуўся вельмі карысным сродкам для мадэлявання маўлення і стаў дамінуючым алгарытмам распазнання маўлення ў 1980 годзе[9], цалкам замяніўшы папярэднія алгарытмы DTW.

Большая частка прагрэсу ў галіне належала новым магчымасцям камп’ютараў, якія ў той час развіваліся найбуйнейшым чынам. У канцы праграмы DARPA ў 1976 годзе, лепшым кампутарам для даследчыкаў быў PDP-10 з 4 Мб аператыўнай памяці. Каб дэкадаваць толькі 30 секунд прамовы, кампутарам патрабавалася ажно 100 хвілін.[10] Калі кампутары сталі хутчэй, даследчыкі пачалі вырашаць больш складаныя праблемы, такія як вялікія слоўнікі, акустычная незалежнасць, шумная абстаноўка і гутарковая гаворка. Прынамсі, гэтае пераключэнне на больш складаныя задачы тлумачыла пладавітасць 1980-ых гадоў як заслугу фінансавання DARPA. Так, быў дасягнуты прагрэс у дыктаранезалежнасці спачатку шляхам навучання на ​​вялікай колькасці розных дыктараў, а потым адаптуючы сістэму пад пэўнага дыктара падчас дэкадавання. Далейшае зніжэнне чашчыні памылак у словах стала магчымым дзякуючы замене акустычных мадэляў максімальнага падабенства дыскрымінацыйнымі.[11]

Ў сярэдзіне 80-х з’явіліся мікрапрацэсары по распазнанню маўлення. Напрыклад, RIPAC, дыктаранезалежны чып для бесперапыннага маўлення (створаны для тэлефонных сэрвісаў), быў прадстаўлены ў Нідэрландах у 1986 годзе.[12] Ён быў распрацаваны CSELT/ Elsag і выраблены SGS.[13].

Практычнае распазнанне маўлення[правіць | правіць зыходнік]

У 1990-я гады ўпершыню пабачылі ўвядзенне камерцыйна паспяховых тэхналогій распазнання маўлення. Два з самых ранніх прадуктаў былі Dragon Dictate, спажывецкі прадукт, выпушчаны ў 1990 годзе па цане $ 9000, і распазнавальнік ад Kurzweil Applied Intelligence, выпушчаны ў 1987.[14][15] AT&T deployed the Voice Recognition Call Processing service in 1992 to route telephone calls without the use of a human operator.[16] AT&T разгарнула службу Voice Recognition Call Processing ў 1992 годзе для маршрутызацыі тэлефонных выклікаў без выкарыстання чалавечага аператара. Гэтая тэхналогія была распрацавана Лоўрэнсам Рабінерам і іншымі з Bell Labs. Да гэтага моманту слоўнікавы склад тыповай сістэмы камерцыйнага распазнання маўлення была больш, чым сярэдні чалавечы слоўнікавы запас. Былы студэнт Раджа Рэддзі, Хуэдонг Хуанг, распрацаваў сістэму Sphinx-II пры CMU. Сістэма Sphinx-II была першай, якая не залежала ад дыктару, мела вялікі слоўнікавы запас, бесперапыннае распазнанне прамовы і, акрамя таго, мела найвышэйшыя адзнакі па думке DARPA.

Lernout & Hauspie, Бельгійская кампанія па распазнанню маўлення, набыла некалькі іншых кампаній, у тым ліку Kurzweil Applied Intelligence ў 1997 годзе і Dragon Systems ў 2000 годзе. Тэхналогіі L&H былі выкарыстаны ў Windows XP. L&H былі лідэрам галіны, пакуль у 2001-ым бухгалтарскі скандал не прынёс канец кампаніі. Маўленчая тэхналогія L&H была набыта ScanSoft, якія сталі ў 2005 годзе сталі Nuance.[17] Apple першапачаткова ліцэнзіравалі праграмны софт ад Nuance для забеспячэння лічбавага дапаможніка Siri магчымасцю распазнання маўлення.

У 2000-я гады DARPA стала спонсарам дзвюх праграм распазнання маўлення: Effective Affordable Reusable Speech-to-Text (EARS) у 2002 годзе і Global Autonomous Language Exploitation (GALE). EARS фінансавалі маўленчы тэлефонны корпус, які змяшчаў 260 гадзін запісаных размоў больш чым 500 дыктарамі.[18] GALE жа была сканцэнтравана на вяшчанні навін на арабскай і кітайскай мовах.

Першая спроба кампаніі Google ў распазнанні маўлення адбылася ў 2007 годзе пасля найму некаторых даследчыкаў з Nuance.[19] Першым прадуктам быў GOOG-411, служба кіравання тэлефоннымі званкамі. Запісы, зробленыя праз GOOG-411 далі каштоўныя дадзеныя, якія дапамаглі Google палепшыць свае сістэмы распазнання. Галасавы пошук Google зараз падтрымліваецца больш чым 30 мовамі.

Сучасныя сістэмы[правіць | правіць зыходнік]

У пачатку 2000-х гадоў у распазнанні маўлення дагэтуль дамінавалі традыцыйныя падыходы: напрыклад, Схаваныя Маркаўскія Мадэлі, спалучаныя са штучнымі нейроннымі сеткамі прамой дыстрыбуцыі (feedforward artificial neural networks).[20] Сёння, аднак, многія аспекты распазнання маўлення былі зроблены прымусова глыбокім метадам навучання (deep learning) пад назвай LSTM (Long short-term memory) - рэкурэнтнай нейронавай сеткі, апублікаванай Зэппам Хохрайтэрам & Юргенам Шмідхуберам у 1997 годзе.[21] LSTM пазбегла праблемы знікнення градыенту і магла спраўляцца з задачамі «Вельмі Глыбокага Навучання»[22], якія патрабуюць успамінаў пра падзеі, якія адбыліся тысячы дыскрэтных часовых крокаў назад, што вельмі важна для прамовы. У 2015 годзе сістэма распазнання маўлення Google перажыла рэзкі скачок прадукцыйнасці на 49% праз CTC(Connectionist Temporal Classification)-навучаную LSTM[23], якая цяпер даступная праз Google Voice для ўсіх карыстальнікаў смартфонаў.

Выкарыстанне глыбокіх нерэкурэнтных сетак у дачыненні да акустычнага мадэлявання было прадстаўлена ў 2009 Джэфры Хінтанам і яго студэнтамі з Універсітэта Таронта, а таксама Лі Дэнам[24] and colleagues at Microsoft Research, initially in the collaborative work between Microsoft and University of Toronto which was subsequently expanded to include IBM and Google (hence "The shared views of four research groups" subtitle in their 2012 review paper).[25] і яго калегамі з Microsoft Research. Кіраўнік па даследаванням Microsoft назваў гэта новаўвядзенне «найболей рэзкім змяненнем у дакладнасці з 1979 года».[26] У адрозненні ад стабільных паступовых паляпшэнняў на працягу апошніх некалькіх дзесяцігоддзяў, прымяненне глыбокага навучання знізіла частату слоўных памылак на 30%.[26] Гэта новаўвядзенне было хутка прынята ва ўсіх магчымых сферах. Далей даследчыкі пачалі выкарыстоўваць метады глыбокага навучання таксама і для мадэлявання мовы.

У доўгай гісторыі распазнання маўлення, як дробныя, так і глыбокія нейронныя сеткі былі даследаваны на працягу 1980-х, 1990-х і некалькі гадоў у 2000-я гады.[27][28][29] Але гэтыя метады не маглі параўнацца з тэхналогіяй Гаўссаўскай сумесі размеркавання/Схаванай Маркаўскай мадэллю (GMM-НММ), заснаванай на дыскрымінацыйных генератыўных мадэлях маўлення.[30] Шэраг ключавых цяжкасцяў быў метадалагічна прааналізаваны ў 1990-х гадах. Такія праблемы, як памяншэнне градыенту (gradient diminishing)[31], слабая структура часовай карэляцыі ў нейронавых мадэлях, адсутнасць вялікіх навучальных дадзеных і вялікай вылічальнай магутнасці ў тыя дні азадачыла большасць даследчыкаў, якія былі вымушаны адступіць ад канцэпцыі нейронавых сетак, займаючыся генератыўнымі падыходамі мадэлявання.[32][33] Але ў 2009-2010 гадах, сітуацыя змянілася: Хінтан і Дэн у супрацоўніцтве з калегамі Універсітэту Таронта, Microsoft, Google і IBM адрадзілі прымяненне глыбокіх нейронавых сетак у дачыненні да распазнання маўлення.[34][35][36][37]

Мадэлі, метады і алгарытмы[правіць | правіць зыходнік]

Акустычнае мадэляванне і моўнае мадэляванне з’яўляюцца важнымі часткамі сучасных статыстычных алгарытмаў распазнання маўлення. Схаваныя Маркаўскія Мадэлі шырока выкарыстоўваюцца ў шэрагу сістэм. Моўнае мадэляванне таксама выкарыстоўваецца ў шмат іншых сферах, такіх як класіфікацыя дакументаў ці статыстычны машынны пераклад.

Схаваныя Маркаўскія Мадэлі[правіць | правіць зыходнік]

Сучасных універсальных сістэм распазнання прамовы на аснове схаваных Маркоўскіх мадэляў. Гэта статыстычныя мадэлі, якія даюць на выхадзе паслядоўнасці знакаў або колькасці. Сістэмай гидрометеомониторинга выкарыстоўваюцца ў распазнанні прамовы, таму што маўленчай сігнал можна разглядаць як кавалкава-стацыянарнага сігналу або кароткага часу стацыянарнага сігналу. У кароткія тэрміны (напрыклад, 10 мілісекунд), гаворка можа быць аппроксимирован стацыянарным працэсам. Гаворка можа разглядацца як Маркоўская мадэль для многіх выпадковых мэтаў.

Яшчэ адна прычына, чаму HMM карыстаюцца папулярнасцю, заключаецца ў тым, што мадэлі могуць быць навучаны аўтаматычна. Акрамя таго, яны дастаткова простыя для фармалізацыі.

Алгарытм дынамічнай трансфармацыі часовой шкалы (DTW)[правіць | правіць зыходнік]

Алгарытм дынамічнай трансфармацыі часовай шкалы (альбо DTW) гістарычна выкарыстоўваўся ў распазнанні маўлення, але зараз ён заменены на больш паспяховы HMM падыход.

DTW ўяўляе сабой алгарытм для вымярэння падабенства паміж двума паслядоўнасцямі, якія могуць змяняцца па часу або хуткасці. Напрыклад, падабенства ў манеры хаджэння будзе выяўлена нават тады, калі ў адным відэа адзін чалавек ідзе павольна, а другі ідзе хутчэй, або нават пры наяўнасці паскарэнняў і тармажэнняў на працягу аднаго назірання. DTW ўжываецца да відэа, аўдыё і графікі, але на самой справе, любыя дадзеныя, якія могуць быць ператвораныя ў лінейнае прадстаўленне, могуць быць прааналізаваны з дапамогай DTW.

Нейронныя сеткі[правіць | правіць зыходнік]

Нейронавыя сеткі з'явіліся як прывабны падыход да акустычнага мадэлявання ASR ў канцы 1980-х гадоў. З тых часоў, нейронавыя сеткі выкарыстоўваліся ў многіх аспектах распазнання маўлення, такіх як класіфікацыя фанэмы[38], распазнання ізаляванага слова[39], распазнанне аўдыёвізуальнага маўлення, аўдыёвізуальныя распазнанне дыктара і адаптацыя да пэўных дыктараў.

У адрозненне ад HMM, нейронавыя сеткі не робяць ніякіх здагадак аб функцыі статыстычных уласцівасцей і маюць некалькі якасцяў, што робіць іх прывабнымі мадэлямі для распазнання маўлення. Пры выкарыстанні нейрасетак для ацэнкі верагоднасці пэўнага гукавога сегмента дыскрымінацыйнае навучанне робіцца натуральным і эфектыўным. Аднак, нягледзячы на іх эфектыўнасць у класіфікацыі кароткатэрміновых часовых адзінак (напрыклад, асобных фанем і слоў)[40], нейронавыя сеткі рэдка бываюць удалымі для бесперапынных задач распазнання, у асноўным з-за адсутнасці здольнасці мадэляваць часовыя залежнасці.

Аднак нядаўнія LSTM Рэкурэнтныя Нейронныя Сеткі (RNN) і Нейронныя Сеткі Затрымкі Часу (TDNN) паказалі сябе здольнымі ідэнтыфікаваць скрытыя тэрміновыя залежнасці і карыстацца гэтай інфармацыяй для выканання разнастайных задач па распазнанню маўлення.[21][41][42] and Time Delay Neural Networks(TDNN's)[43]

Глыбокія сеткі прамой дыстрыбуцыі (DNN)[правіць | правіць зыходнік]

Поспех DNN у распазнанні маўлення вялікага слоўніка адбыўся ў 2010 годзе з дапамогай прамысловых і навуковых даследчыкаў. Тады былі прыняты вялікія выходныя пласты DNN на аснове залежных ад кантэксту станаў HMM, пабудаваных дрэвамі рашэнняў.[44][45] [46]

Адным з асноватворных прынцыпаў глыбокага навучання з'яўляецца скасаванне ручнога стварэння прыкмет і выкарыстоўванне неапрацаваных прыкмет (“raw” features). Гэты прынцып упершыню быў паспяхова даследаваны ў архітэктуры глыбокага аўтакадавальніка ў дачыненні да «сырой» спектраграмы, паказаўшы сваю перавагу над Мел-Кэпстральнымі прыкметамі[47], якія ўтрымліваюць некалькі этапаў фіксаванай трансфармацыі з спектраграмы. Сапраўдныя «сырыя» прыкметы (“raw” features of speech) маўлення (сігналы) зусім нядаўна паказалі сваю выдатную прымяняльнасць у выніках распазнання.[48]

Распазнанне маўлення “ад канца да канца”[правіць | правіць зыходнік]

З 2014 года было праведзена шмат даследаванняў, зацікаўленых у так званым «end-to-end» ASR (распазнанні маўлення “ад канца да канца”). Традыцыйныя падыходы, пабудаваныя на фанетычнай аснове (маюцца на ўвазе Схаваныя Маркаўскія Мадэлі) патрабавалі асобныя кампаненты і навучанне пад тое альбо іншае вымаўленне, акустычныя і моўныя мадэлі. Мадэлі ‘End-To-End’ сумяшчаюць усе кампаненты маўленчага распазнавальніка. Гэта дастаткова каштоўная асаблівасць, таму што яна спрашчае працэс навучання і працэс размяшчэння. Напрыклад, N-грамная моўная мадэль патрабуецца для ўсіх HMM. А такая тыповая мадэль часта займае некалькі гігабайтаў памяці, што робіць яе непрактычнай для размяшчэння на мабільных прыладах.[49] Такім чынам, сучасныя камерцыйныя ASR сістэмы ад Google і Apple (па стане на 2017 г.) разгорнуты на воблаку і патрабуюць падлучэнняў да сеткі, у адрозненні ад размяшчэння на самім устройстве.

Першай спробай End to End ASR была выканана з дапамогай Нейрасеткавай тэмпаральнай класіфікацыі (СТС), уведзенай Алексам Грэйвсам з Google DeepMind і Наўдзіпам Джэйтлі з Універсітэту Таронта[50]. Мадэль складалася з рэкуррэнтных нейронавых сетак і пласта СТС. Мадэль RNN-CTC сумесна вывучае вымаўленчую і акустычную мадэль разам, аднак ён не здольны вывучаць саму мову падобна HMM. Такім чынам, мадэль СТС можа непасрэдна ператвараць гукі прамовы ў англійскія сімвалы, але такія мадэлі робяць шмат арфаграфічных памылак, таму павінны спадзявацца на асобную моўную мадэль для вырашэння арфаграфічных нюансаў.

Альтэрнатыўны падыход да мадэляў CTC – увага-заснаваныя мадэлі (attention-based models). Адначасова ў 2016 годзе такія мадэлі былі прадстаўлены Чэнам і інш. з універсітэту Меллона-Карнэгі і Google Brain, а таксама Bahdanaua і інш. з Манрэальскага ўніверсітэта.[51][52] Мадэль пад назвай "Listen, Attend and Spell" (LAS) літаральна «слухае» гукавы сігнал, «звяртае ўвагу» да розных частак сігналу і адначасова «піша» транскрыпцыю пачутага. У адрозненні ад мадэляў СТС, увага-заснаваныя мадэлі не маюць здагадак аб умоўнай незалежнасці і могуць вывучыць усе кампаненты распазнавальніка маўлення, непасрэдна ўключаючы вымаўленне, акустычную і моўную мадэлі. Гэта азначае, што падчас устаноўкі, няма неабходнасці “насіць” з сабой моўную мадэль, што робіць распрацоўку вельмі практычнай для размяшчэння на ўстройствах з абмежаваным аб'ёмам памяці. У апошнія гады дадзеныя тэхналогія буйна развіваюцца і з моманту стварэння LAS-мадэлі былі прапанаваны такія мадэлі, як LSD (Latent Sequence Decompositions) і WLAS ("Watch, Listen, Attend and Spell", мадэль, здольная “чытаць па вуснах”).[53][54]

Прымяненне[правіць | правіць зыходнік]

Паспяховымі прыкладамі выкарыстання тэхналогіі распазнання маўлення ў мабільных прыладах з'яўляюцца: увод адраса голасам у Яндекс.Навігатары, галасавы пошук Google Now, галасавыя асістэнты ад Яндэкс (Аліса) і Google (Siri) і многае іншае. Акрамя мабільных прылад, тэхналогія распазнання прамовы знаходзіць шырокае распаўсюджванне ў іншых сферах:

  • Тэлефанія: аўтаматызацыя апрацоўкі ўваходных і выходных званкоў шляхам стварэння галасавых сістэм самаабслугоўвання ў прыватнасці для атрымання даведачнай інфармацыі і кансультавання, замовы паслуг / тавараў, змены параметраў дзеючых паслуг, правядзення апытанняў, анкетавання, збору інфармацыі, інфармавання і любыя іншыя сцэнарыі;
  • Рашэнні "Разумны дом": галасавой інтэрфейс кіравання сістэмамі «Разумны дом»
  • Бытавая тэхніка і робаты: галасавой інтэрфейс электронных робатаў; галасавое кіраванне бытавой тэхнікай і г.д;
  • Дэсктопы і ноўтбукі: галасавы ўвод у камп’ютарных гульнях і прыкладаннях;
  • Аўтамабілі: галасавое кіраванне ў салоне аўтамабіль - напрыклад, сістэма навігацыі;
  • Сацыяльныя сэрвісы для людзей з абмежаванымі магчымасцямі.[55][56][57][58]
  • Медыцына: аўтаматызацыя складання/рэдагавання медыцынскай дакументацыі, частка тэрапеўтычнага курса для пацыентаў з праблемамі памяці.[59]  

Дадатковая інфармацыя[правіць | правіць зыходнік]

Канферэнцыі і часопісы
Папулярныя канферэнцыі распазнання маўлення, якія праводзяцца кожны год ці два ўключаюць SpeechTEK і SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, а таксама IEEE ASRU. Канферэнцыі ў галіне апрацоўкі натуральнай мовы (NLP), такія як ACL, NAACL, EMNLP і HLT, пачынаюць уключаць дакументы і па апрацоўцы маўлення. Важныя часопісы ўключаюць IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, and Speech Communication.Кнігі

Кнігі, падобныя да "Fundamentals of Speech Recognition" Лоўрэнса Рабінэра могуць быць карыснымі для атрымання некаторых базавых ведаў, аднак кнігі такіх гадоў (1993) ужо лічацца значна ўстарэлымі на фоне сучасных ведаў. Дадаткова добрай крыніцай можа быць "Statistical Methods for Speech Recognition" Фрэдэрыка Йелінэка i "Spoken Language Processing (2001)" Хуэдонга Хуанга. і г.д. Нядаўна аднаўлёная кніга "Speech and Language Processing (2008)", напісаная Жураўскім і Мартынам дэманструе базу і сучасны (на той момант) стан ASR.Добрае і даступнае ўвядзенне ў тэхналогію распазнання маўлення і яе гісторыю раскрываецца ў кнізе "The Voice in the Machine. Building Computers That Understand Speech" Роберта Піракцыні (2012). Адносна сучаснай кнігай распазнання маўлення з'яўляецца «Automatic Speech Recognition: A Deep Learning Approach» (Выдавецтва: Springer), напісаная Д. Ю. і Л. Дэнге (2014)[60]. Кніга змяшчае матэматычна арыентаваныя падрабязнасці аб тым, як метады глыбокага навучання ўспадкаваны і рэалізаваны ў сучасных сістэмах распазнання маўлення на аснове DNN і звязаныя з імі метадамі глыбокага навучання.[61]

Спасылкі[правіць | правіць зыходнік]

  1. Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation. Fifthgen.com. Архівавана з першакрыніцы 11 лістапада 2013. Праверана 15 чэрвеня 2013.
  2. Juang, B. H.; Rabiner, Lawrence R.. Automatic speech recognition–a brief history of the technology development. p. 6. http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 17 January 2015. 
  3. Pierce, John R. (1969). "Whither speech recognition?". Journal of the Acoustical Society of America 46 (48): 1049. doi:10.1121/1.1911801. Bibcode1969ASAJ...46.1049P. 
  4. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springer Handbook of Speech Processing. Springer Science & Business Media. ISBN 3540491252. 
  5. First-Hand:The Hidden Markov Model - Engineering and Technology History Wiki. Архівавана з першакрыніцы 3 красавіка 2018. Праверана 1 мая 2018.
  6. Pioneering Speech Recognition. Архівавана з першакрыніцы 19 лютага 2015. Праверана 18 студзеня 2015.
  7. James Baker interview. Архівавана з першакрыніцы 28 жніўня 2017. Праверана 9 лютага 2017.
  8. A Historical Perspective of Speech Recognition. Communications of the ACM. Архівавана з першакрыніцы 20 студзеня 2015. Праверана 20 студзеня 2015.
  9. Juang, B. H.; Rabiner, Lawrence R.. Automatic speech recognition–a brief history of the technology development. p. 10. http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 17 January 2015. 
  10. When Cole talks, computers listen , Sarasota Journal (8 April 1980). Праверана 23 лістапада 2015.
  11. Morgan, Nelson; Cohen, Jordan; Krishnan, Sree Hari; Chang, S; Wegmann, S (2013). Final Report: OUCH Project (Outing Unfortunate Characteristics of HMMs). 
  12. Cecinati, R; Ciaramella, A; Venuti, G; Vicenzi, C (February 1987). "A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition". CSELT Technical Reports 15 (1). 
  13. MIT News: Low power chip speech recognition', 2017.
  14. Speech Recognition Through the Decades: How We Ended Up With Siri. Архівавана з першакрыніцы 13 студзеня 2017. Праверана 28 ліпеня 2017.
  15. Ray Kurzweil biography. KurzweilAINetwork. Архівавана з першакрыніцы 5 лютага 2014. Праверана 25 верасня 2014.
  16. Juang, B.H.; Rabiner, Lawrence. Automatic Speech Recognition – A Brief History of the Technology Development. http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf. Retrieved on 28 July 2017. 
  17. Nuance Exec on iPhone 4S, Siri, and the Future of Speech. Tech.pinions (10 кастрычніка 2011). Архівавана з першакрыніцы 19 лістапада 2011. Праверана 23 лістапада 2011.
  18. Switchboard-1 Release 2. Архівавана з першакрыніцы 11 ліпеня 2017. Праверана 26 ліпеня 2017.
  19. The Power Of Voice: A Conversation With The Head Of Google's Speech Technology. Архівавана з першакрыніцы 21 ліпеня 2015. Праверана 21 ліпеня 2015.
  20. Herve Bourlard and Nelson Morgan, Connectionist Speech Recognition: A Hybrid Approach, The Kluwer International Series in Engineering and Computer Science; v. 247, Boston: Kluwer Academic Publishers, 1994.
  21. 21,0 21,1 Hochreiter, S; Schmidhuber, J (1997). "Long Short-Term Memory". Neural Computation 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. 
  22. Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks 61: 85–117. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. 
  23. Alex Graves, Santiago Fernandez, Faustino Gomez, and Jürgen Schmidhuber (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural nets. Proceedings of ICML'06, pp. 369–376.
  24. Li Deng. Li Deng Site.
  25. NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  26. 26,0 26,1 Scientists See Promise in Deep-Learning Programs , New York Times (23 November 2012). Праверана 20 студзеня 2015.
  27. Morgan, Bourlard, Renals, Cohen, Franco (1993) "Hybrid neural network/hidden Markov model systems for continuous speech recognition. ICASSP/IJPRAI"
  28. T. Robinson. (1992) A real-time recurrent error propagation network word recognition system Архівавана 3 верасня 2017 года., ICASSP.
  29. Waibel, Hanazawa, Hinton, Shikano, Lang. (1989) "Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech and Signal Processing."
  30. Baker, J.; Li Deng; Glass, J.; Khudanpur, S.; Chin-Hui Lee; Morgan, N.; O'Shaughnessy, D. (2009). "Developments and Directions in Speech Recognition and Understanding, Part 1". IEEE Signal Processing Magazine 26 (3): 75–80. doi:10.1109/MSP.2009.932166. Bibcode2009ISPM...26...75B. 
  31. Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Архівавана 6 сакавіка 2015 года., Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber.
  32. Y. Bengio (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition," Ph.D. thesis, McGill University, Canada.
  33. Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analysis of the correlation structure for a neural predictive model with application to speech recognition". Neural Networks 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2. 
  34. Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Senior, Andrew; Vanhoucke, Vincent; et al. (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The shared views of four research groups". IEEE Signal Processing Magazine 29 (6): 82–97. doi:10.1109/MSP.2012.2205597. Bibcode2012ISPM...29...82H. 
  35. Deng, L.; Hinton, G.; Kingsbury, B. (2013). "New types of deep neural network learning for speech recognition and related applications: An overview". 2013 IEEE International Conference on Acoustics, Speech and Signal Processing: New types of deep neural network learning for speech recognition and related applications: An overview. pp. 8599. doi:10.1109/ICASSP.2013.6639344. ISBN 978-1-4799-0356-6. 
  36. Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  37. Keynote talk: "Achievements and Challenges of Deep Learning: From Speech Analysis and Recognition To Language and Multimodal Processing," Interspeech, September 2014 (by Li Deng).
  38. Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (1989). "Phoneme recognition using time-delay neural networks". IEEE Transactions on Acoustics, Speech and Signal Processing 37 (3): 328–339. doi:10.1109/29.21701. 
  39. Wu, J.; Chan, C. (1993). "Isolated Word Recognition by Neural Network Models with Cross-Correlation Coefficients for Speech Dynamics". IEEE Transactions on Pattern Analysis & Machine Intelligence 15 (11): 1174–1185. doi:10.1109/34.244678. 
  40. S. A. Zahorian, A. M. Zimmer, and F. Meng, (2002) "Vowel Classification for Computer based Visual Feedback for Speech Training for the Hearing Impaired," in ICSLP 2002
  41. Fernandez, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks". Proceedings of IJCAI. http://www.aaai.org/Papers/IJCAI/2007/IJCAI07-124.pdf. 
  42. Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Speech recognition with deep recurrent neural networks". arΧiv:1303.5778 [cs.NE].  ICASSP 2013.
  43. Waibel, Alex (1989). "Modular Construction of Time-Delay Neural Networks for Speech Recognition". Neural Computation 1 (1): 39–46. doi:10.1162/neco.1989.1.1.39. http://isl.anthropomatik.kit.edu/cmu-kit/Modular_Construction_of_Time-Delay_Neural_Networks_for_Speech_Recognition.pdf. 
  44. Yu, D.; Deng, L.; Dahl, G. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition". NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 
  45. Dahl, George E.; Yu, Dong; Deng, Li; Acero, Alex (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Signal Processing 20 (1): 30–42. doi:10.1109/TASL.2011.2134090. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5740583. 
  46. Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Recent Advances in Deep Learning for Speech Research at Microsoft. ICASSP, 2013.
  47. L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed, and G. Hinton (2010) Binary Coding of Speech Spectrograms Using a Deep Auto-encoder. Interspeech.
  48. Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR". Interspeech 2014. 
  49. Jurafsky, Daniel (2016). Speech and Language Processing. 
  50. Graves, Alex (2014). "Towards End-to-End Speech Recognition with Recurrent Neural Networks". ICML. 
  51. Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Listen, Attend and Spell: A Neural Network for Large Vocabulary Conversational Speech Recognition". ICASSP. 
  52. Bahdanau, Dzmitry (2016). "End-to-End Attention-based Large Vocabulary Speech Recognition". arΧiv:1508.04395 [cs.CL]. 
  53. Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 October 2016). "Latent Sequence Decompositions". arΧiv:1610.03035 [stat.ML]. 
  54. Chung, Joon Son; Senior, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 November 2016). "Lip Reading Sentences in the Wild". arΧiv:1611.05358 [cs.CV]. 
  55. Overcoming Communication Barriers in the Classroom. MassMATCH (18 сакавіка 2010). Архівавана з першакрыніцы 25 ліпеня 2013. Праверана 15 чэрвеня 2013.
  56. Speech recognition for disabled people. Архівавана з першакрыніцы 4 красавіка 2008.
  57. Friends International Support Group
  58. Tang, K. W.; Kamoua, Ridha; Sutan, Victor (2004). "Speech Recognition Technology for Disabilities Education". Journal of Educational Technology Systems 33 (2): 173–84. 
  59. Suominen, Hanna; Zhou, Liyuan; Hanlen, Leif; Ferraro, Gabriela (2015). "Benchmarking Clinical Speech Recognition and Information Extraction: New Data, Methods, and Evaluations". JMIR Medical Informatics 3 (2): e19. doi:10.2196/medinform.4321. PMID 25917752. 
  60. Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer). 
  61. Deng, Li; Yu, Dong (2014). "Deep Learning: Methods and Applications". Foundations and Trends in Signal Processing 7 (3–4): 197–387. doi:10.1561/2000000039. http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf.