Камп’ютарная лінгвістыка

З пляцоўкі Вікіпедыя
Jump to navigation Jump to search

Камп’ютарная лінгвістыка — міждысцыплінарная(англ.) бел. галіна, якая тычыцца заснаванага на правілах апрацоўкі статыстычнага мадэлявання, а таксама вывучэння адпаведных камп’ютарных падыходаў да моўных пытанняў.

Традыцыйна, камп’ютарная лінгвістыка выканалася камп’ютарнымі навукоўцамі, якія спецыялізуюцца ў галіне прымянення ЭВМ у апрацоўцы натуральнай мовы. Сёння вылічальныя лінгвісты часта працуюць у якасці членаў міждысцыплінарнай каманды, якая можа ўключаць у сябе звычайных лінгвістаў, спецыялістаў па тэгавай (выходнай) мове, і камп’ютарнікаў. У цэлым, камп’ютарная лінгвістыка абапіраецца на дапамогу лінгвістаў, камп’ютарных навукоўцаў, спецыялістаў у галіне штучнага інтэлекту, матэматыкаў, логікаў, філосафаў, кагнітыўных навукоўцаў, кагнітыўных псіхолагаў, псіхалінгвістаў, антраполагаў і нейрабіёлагаў, сярод іншых.

Камп’ютарная лінгвістыка мае тэарэтычныя і прыкладныя кампаненты. Тэарэтычная камп’ютарная лінгвістыка факусуецца на пытаннях у галіне тэарэтычнай лінгвістыкі і кагнітыўнай навукі, а прыкладная камп’ютарная лінгвістыка — на практычных выніках карыстання мадэляваннем чалавечай мовы.[1]


Асацыяцыя камп’ютарнай лінгвістыкі вызначае камп’ютарную лінгвістыку як:

« ...the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena.[2] »

Паходжанне[правіць | правіць зыходнік]

Камп’ютарная лінгвістыка часта групуецца ў вобласці штучнага інтэлекту, але на самой справе яна існавала і да распрацоўкі штучнага інтэлекту. Камп’ютарная лінгвістыка паўстала з намаганнямі ў Злучаных Штатах у 1950-х гадах, каб выкарыстоўваць камп’ютары для аўтаматычнага перакладу тэкстаў з замежных моў, у тым ліку расійскіх навуковых часопісаў, на ангельскую мову.[3] Так як камп’ютары могуць зрабіць арыфметычныя вылічэнні нашмат хутчэй і дакладней, чым людзі, то лічылася, што гэта толькі справа часу, перш чым яны б маглі таксама пачаць апрацоўваць мовы.[4] Вылічальныя і колькасныя метады таксама выкарыстоўваюцца ў спробе рэканструкцыі ранніх формаў сучасных моў і групаванні сучасных моў у моўныя сем’і. Раней такія метады, як лексікастатыстыка і глотахраналогія апынуліся дачаснымі і недакладнымі. Тым не менш, у апошні час міждысцыплінарныя даследаванні, якія запазычваюць канцэпцыі з біялагічных ведаў (як, напрыклад, карціраванне генаў), вырабляюць больш складаныя аналітычныя прылады і робяць больш даверныя вынікі.[5]

Калі машынны пераклад (таксама вядомы як механічны пераклад) не даў адразу дакладнага перакладу, аўтаматызаваная апрацоўка чалавечых моў была прызнана нашмат больш складанай, чым першапачаткова меркавалася. Камп’ютарная лінгвістыка нарадзілася як назва новай вобласці ведаў, прысвечаных распрацоўцы алгарытмаў і праграмнага забеспячэння для інтэлектуальнай апрацоўцы моўных дадзеных. Сам тэрмін «камп’ютарная лінгвістыка» ўпершыню быў прыдуманы Дэвідам Хейсам, членам-заснавальнікам Асацыяцыі камп’ютарнай лінгвістыкі і Міжнароднага камітэта па камп’ютарнай лінгвістыцы.[6] У 1960-х гадах галіна лінгвістыцы, адказваючы за разуменне на чалавечым узроўні і стварэнне натуральных моў, стала падраздзяленнем штучнага інтэлекту.

Для таго, каб перавесці з адной мовы на іншую, было адзначана, што адразу трэба было зразумець граматыку абедзвюх моў, уключаючы і марфалогію (граматыку словаформ), і сінтаксіс (граматыку структуры сказа). Для таго, каб зразумець сінтаксіс, таксама трэба было зразумець семантыку і лексікон (ці «слоўнікавы запас»), і нават нешта з прагматыкі выкарыстання мовы. Такім чынам, тое, што пачыналася як спроба перакладу паміж мовамі эваліціянавала ў цэлую дысцыпліну, прысвечаную спосабам прадстаўлення і апрацоўцы натуральных моў з дапамогай камп’ютараў.[7]

У цяперашні час даследаванне ў рамках камп’ютарнай лінгвістыцы робіцца ў камп’ютарных аддзелах[8], лабараторыях па камп’ютарнай лінгвістыцы[9], дэпартаментах камп’ютарнай навукі[10] і лінгвістычных аддзелах.[11][12] Некаторыя даследаванні ў галіне камп’ютарнай лінгвістыцы накіраваны на стварэнне працоўнага маўлення або сістэмы апрацоўкі тэксту, а іншыя імкнуцца стварыць сістэму, якая дазваляе ўзаемадзеянне чалавек-машына. Праграмы, прызначаныя для сувязі чалавека і машыны называюцца дыялогавыя(гутарковыя) агенты. [13]

Падыходы[правіць | правіць зыходнік]

У наступных раздзелах разглядаецца некаторая наяўная літаратура, падзеленая на чатыры асноўныя вобласці дыскурсу: анталінгвістыка, структурная лінгвістыка, лінгвістычная вытворчасць і лінгвістычнае разуменне.

Падыход развіцця[правіць | правіць зыходнік]

Мова з’яўляецца кагнітыўным навыкам, які развіваецца на працягу ўсяго жыцця чалавека. Гэты працэс развіцця быў вывучаны з выкарыстаннем шэрагу метадаў, у тым ліку і вылічальнага. Развіццё чалавечай мовы прадугледжвае некаторыя абмежаванні, якія робяць больш цяжкім прымяненне вылічальнага метаду для яго разумення. Напрыклад, падчас засваення мовы, дзеці ў асноўным падвяргаюцца толькі ўздзеянню станоўчага доказу.[14] Гэта азначае, што падчас моўнага развіцця асобы, існуе доказ толькі таго, што падаецца правільным, і няма доказу таго, што не з’яўляецца правільным. Гэтага ўсяго не хапае, каб правераць нават простую гіпотэзу ў такой складанай рэчы, як мова. І таму гэты момант ставіць пэўныя межы для вылічальнага падыходу, дастасоўнага да мадэлявання развіцця і засваення мовы ў індывіда.[15]

Былі зроблены спробы змадэліраваць працэс развіцця засваення мовы ў дзяцей з вылічальнага пункту гледжання, прыцягваючы веды па статыстычнай граматыцы і канэкцыянальным мадэлям.[16] Праца ў гэтай галіне таксама была прапанавана ў якасці спосабу растлумачыць эвалюцыю мовы праз гісторыю.[17] Выкарыстоўваючы мадэлі, было паказана, што мовы могуць быць вывучаны з дапамогай камбінацый простага ўводу, прадстаўленага паступова, таму як дзіця развівае лепшую памяць і даўжэйшую працягласць канцэнтрацыі ўвагі. [17]Абедзве высновы былі зроблены дзякуючы моцы нейронавай сеткі, створанай праектам.

Дзеля праверкі лінгвістычных тэорый з выкарыстаннем робатаў таксама была змадэліравана i здольнасць дзяцей развіваць сваю мову.[18] Запраграмаваная навучацца, як дзеці, мадэль была зроблена на аснове мадэлі афардэнса («магчымасцяў выкарыстання»), у якой была створана адпаведнасць паміж дзеяннямі, успрыманнямі і эфектамі, пасля злучанымі з вымаўленчымі словамі. Важна адзначыць, што гэтыя робаты былі здольны набыць адпаведнасці «слова-значэнне» без неабходнасці прыцягнення граматычнай структуры, што значна спрашчае працэс навучання і пралівае святло на інфармацыю, якая пашырае сучаснае разуменне моўнага развіцця. Важна адзначыць, што гэтая інфармацыя можа быць праверана толькі дасведчаным шляхам, выкарыстоўваючы вылічальны падыход.

У час, калі нашае разуменне моўнага развіцця асобы на працягу жыцця пастаянна паляпшаецца (у першую чаргу, з выкарыстаннем нейронавых сетак і навучання рабатызаваных сістэм), трэба мець на ўвазе, што і самі мовы з цягам часу змяняюцца і развіваюцца. Вылічальныя падыходы да разумення гэтай з’явы раскапалі вельмі цікавую інфармацыю. Выкарыстоўваючы дынаміку Price Equation і Pólya urn, даследчыкі стварылі сістэму, якая не толькі прадказвае будучую моўную эвалюцыю, але і дае ўяўленне пра гісторыю эвалюцыі моў сучасных. Гэтае намаганне мадэлявання дасягаецца з дапамогай камп’ютарнай лінгвістыкі, што ў адваротным выпадку было б немагчыма.[19]

Відавочна, што разуменне моўнага развіцця ў арганізме чалавека, а таксама на працягу эвалюцыйнага часу было фантастычна палепшана з-за дасягнення ў вобласці камп’ютарнай лінгвістыкі. Магчымасць мадэляваць і мадыфікаваць сістэмы па жаданні дае навуцы этычны метад праверкі гіпотэз, які ў іншым выпадку мог бы быць недасягальным.

Структурны падыход[правіць | правіць зыходнік]

Для таго, каб стварыць найлепшыя вылічальныя мадэлі мовы, вырашальнае значэнне мае разуменне структуры мовы. З гэтай мэтай, англійская мова была старанна вывучана з выкарыстаннем вылічальных падыходаў, каб лепш зразумець, як працуе мова на структурным узроўні. Адной з самых важных частак для вывучэння лінгвістычнай структуры з’яўляецца наяўнасць вялікіх моўных карпусоў або ўзораў. Гэта дае камп’ютарным лінгвістам дадзеныя, неабходныя для запуску сваіх мадэляў і атрымання больш глыбокага разумення асноўных структур, прысутных у велізарнай колькасці дадзеных, якія змяшчаюцца ў любой мове. Адзін з найбольш цытуемых ангельскіх моўных карпусоў — гэта Penn Treebank.[20] Вытворны ад неабсяжна розных крыніц, такіх як камп’ютарнае кіраўніцтва IBM і расшыфраваныя тэлефонныя размовы, гэты корпус утрымлівае больш за 4,5 мільёна слоў амерыканскага-ангельскай мовы. Гэты корпус быў галоўным чынам анатаваны з выкарыстаннем часткамоўнай разметкі і сінтаксічнага брэкецінга.[21]

Былі распрацаваны таксама і тэарэтычныя падыходы да структуры моў. Гэтыя працы дазваляюць вылічальнай лінгвістыцы мець фрэймворк, у рамках якога выпрацаваныя гіпотэзы значна пашыраць разуменне мовы. Адно з першых тэарэтычных палажэнняў па інтэрналізацыі граматыцы і структуры мовы прапанавала два тыпа мадэляў. У гэтых мадэлях, правіла альбо патэрны павялічваюць сваю моц з частатой іх сустрэчы. Гэтая праца таксама стварыла пытанне для камп’ютарных лінгвістаў: як жа дзіця вывучае спецыфічную і нестандартную граматыку (нармальная форма Хомскага) без захрасання ў завучванні занадта агульных рэчаў? Тэарэтычныя намаганні, падобна гэтым, ставяць для даследаванняў мэту паглыбіцца ў ранейшае жыццё вобласці даследавання. Відавочна, гэта мае вырашальнае значэнне для роста гэтай вобласці.

Структурная інфармацыя аб мовах дазваляе адкрываць і рэалізаваць распазнанне падабенства паміж парамі тэкставых выказванняў. Напрыклад, нядаўна было даказана, што на падставе структурнай інфармацыі, прадстаўленай у мадэлі чалавечага дыскурсу, канцэптуальныя recurrence plots могуць быць выкарыстаны для мадэлявання і візуалізацыі тэндэнцый у дадзеных і таксама ствараць надзейныя меры падабенства паміж натуральнымі выказваннямі. Гэты метад з’яўляецца магутным інструментам для далейшага зандзіравання структуры чалавечага дыскурса. Без вылічальнага падыходу да гэтага пытання, вельмі складаная інфармацыя, якая прысутнічае ў дадзеных дыскурса заставалася б недаступнай для навукоўцаў.[22]

Інфармацыя аб структурных дадзеных мовы даступна для ангельскай мовы, а таксама на іншых мовах (напрыклад, на японскай).[23] Выкарыстоўваючы вылічальныя метады, былі прааналізаваны японскія карпусы сказаў. У сувязі з гэтым была выяўлена мадэль логнармальнай дыстрыбуцыі, дачыненая да даўжыні сказа. Хаця і дакладная прычына гэтай логнармальнасці застаецца невядомай, менавіта такога роду інтрыгуючая інфармацыя павінна быць раскрыта камп’ютарнай лінгвістыкай. У далейшым гэтая інфармацыя можа прывесці да важных адкрыццяў у дачыненні да структуры, якая ляжыць у аснове японскай мовы.

Без вылічальнага падыходу да структуры лінгвістычных дадзеных, значная частка даступнай сёння інфармацыі ўсё яшчэ была бы схавана пад гіганцкай колькасцю дадзеных якой-небудзь мовы. Камп’ютарная лінгвістыка дазваляе навукоўцам надзейна і эфектыўна аналізаваць вялізныя аб’ёмы дадзеных, ствараючы магчымасць для адкрыццяў, недаступных для большасці іншых падыходаў.

Вытворчы падыход[правіць | правіць зыходнік]

Вытворчасць мовы з’яўляецца гэтак жа складанай як і ў прадастаўленні інфармацыі, так і ў неабходных навыках, якія ўпэўнены вытворца (fluent producer) павінен мець. Разуменне з’яўляецца толькі паловай праблемы камунікацыі. Іншая палова заключаецца ў тым, як сістэма прадукуе мову. І ў гэтай плыні камп’ютарная лінгвістыка зрабіла вельмі цікавыя адкрыцці.

Алан Цьюрынг: камп’ютарны навуковец і  распрацоўшчык тэста Цьюрынга як метада вымярэння інтэлекту машыны.

У адным знакамітым артыкуле, апублікаваным у 1950 годзе, Алан Цьюрынг прапанаваў магчымасць таго, што машыны могуць мець адзін дзень права на «падумаць». Як разумовы эксперымент, які б мог вызначыць, што такое думкі ў машынах, ён прапанаваў «тэст імітацыі», у якім чалавек мае толькі дзве тэкставыя размовы (адна — з чалавекам, а другая — з машынай, якая імітуе чалавечы адказ). Т’юрынг прапануе, што калі суб’ект не можа адрозніць размову паміж чалавекам і машынай, то можна зрабіць выснову аб тым, што машына здольная думаць.[24] Сёння гэты тэст вядомы як тэст Цьюрынга, і ён застаецца ўплывовай ідэяй у вобласці штучнага інтэлекту.

Джозэф Вайцэнбаум: былы  прафесар МТІ і навуковец, які распрацаваў Элізу, прымітыўную камп’ютарную праграму, з выкарыстаннем апрацоўкі натуральнай мовы.

Адным з самых ранніх і найбольш вядомых прыкладаў камп’ютарнай праграмы, прызначанай для размовы з людзьмі, з’яўляецца праграма Эліза, распрацаваная Вейценбаум у MIT ў 1966 годзе. Праграма эмулявала так званага Роджэрскага псіхатэрапеўта, адказваючы на пісьмовыя заявы і пытанні, зададзеныя карыстальнікам. Яна апынулася здольнай зразумець, што ёй было сказана, адказваючы разумна, але на самой справе праграма проста ішла па паттэрну, які абапіраўся выключна на разуменне некалькі ключавых слоў у кожным сказе. Яе адказы былі згенерыраваны рэкамбінацыяй невядомых частак сказу вакол належным чынам перакладзеных версій вядомых слоў. Напрыклад, у фразе «Мне здаецца, што ты мяне ненавідзіш» Эліза разумее «ты» і «я», які адпавядае агульнаму паттэрну «вы [некаторыя словы] мяне», дазваляючы Элізе аднавіць словы «ты» і «я» да «я» і «ты» і адказаць «Што прымушае цябе думаць, я ненавіджу цябе?». У гэтым прыкладзе Эліза не разумее словы «ненавіджу», але гэта не патрабуецца для лагічнага адказу ў кантэксце гэтага віду псіхатэрапіі.[25]


Некаторыя праекты ўсё яшчэ спрабуюць вырашыць праблему, якую ўпершыню паставілі камп’ютарныя лінгвісты як галоўную ў сваёй галіне. Тым не менш, метады сталі больш выдасканаленымі і разумнымі, і, такім чынам, вынікі, атрыманыя з дапамогай камп’ютарных лінгвістаў сталі больш карыснымі. У спробе палепшыць камп’ютарны пераклад, былі параўнованы некалькі мадэляў, у тым ліку схаваныя Маркаўскія мадэлі, метады згладжвання і іншыя.[26] Знойдзенымі мадэлямі, падыходзячымі для стварэння найбольш натуральных перакладаў нямецкіх і французскіх слоў, былі ўдакладненая мадэль выраўноўвання з залежнасцю першага парадку і мадэль нараджальнасці. Пошук мадэляў і стварэнне алгарытмаў з’яўляецца спецыфічным для камп’ютарнай лінгвістыкі, але іх прымяненне значна палепшае разуменне таго, як прадукуецца і разумеецца мова камп’ютарам.

Значная праца таксама была зроблена ў стварэнні камп’ютарам мовы ў больш натуралістычнай манеры. Выкарыстоўваючы лінгвістычную інфармацыю ад чалавека, былі пабудаваны алгарытмы, здольныя змяніць стылізацыю сістэмы вытворчасці на аснове лінгвістычнага ўваходу ад чалавека, ці больш абстрактных фактараў, як ветлівасць або любыя з пяці асноўных аспектаў асобы.[27] Гэтая праца карыстаецца вылічальным падыходам з дапамогай мадэляў ацэнкі параметраў для класіфікацыі вялізнага масіва моўных стыляў, прысутных у розных людзей, што ў выніку робіць узаемадзеянне «чалавек-камп’ютар» больш натуральнай.

Тэкст на аснове інтэрактыўнага падыходу[правіць | правіць зыходнік]

Многія з самых ранніх і найпростых мадэляў узаемадзеяння чалавека і камп’ютара, такія як ELIZA, напрыклад, уключаць у сябе тэкставы ўвод ад карыстальніка, каб генерыраваць адказ ад камп’ютара. З дапамогай гэтага метаду, словы, набраныя карыстальнікам, запускаюць камп’ютарнае распазнанне пэўных узораў і адпаведны адказ праз працэс, вядомы як keyword spotting.

Размова на аснове інтэрактыўнага падыходу[правіць | правіць зыходнік]

Нядаўнія тэхналогіі паставілі цвёрды акцэнт на маўленчых інтэрактыўных сістэмах. Гэтыя сістэмы (напрыклад, Siri аперацыйнай сістэмы IOS) працуюць на аналагічных распазнавальных методыках, што і тэкставыя, але ў дадзеным выпадку карыстальніцкі ўвод ажыццяўляецца праз распазнанне прамовы. Гэтая галіна лінгвістыкі ўключае апрацоўку прамовы карыстальніка ў выглядзе гукавых хваль і інтэрпрэтацыі акустыкі і моўных патэрнаў для дзеля далейшага распазнання .[28]

Падыход разумення[правіць | правіць зыходнік]

Большая частка ўвагі сучаснай камп’ютарнай лінгвістыкі накіравана на разуменне. З распаўсюджваннем Інтэрнэту і багаццем лёгкадаступнай пісьмовай мовы, магчымасць стварыць праграму, здольную разумець чалавечую мову зараз мае шмат шырокіх і цікавых магчымасцяў (у тым ліку палепшаных пошукавых сістэм, аўтаматызаванага абслугоўвання кліентаў, а таксама анлайн-адукацыі).

Раннія працы ў разуменні ўключалі прымяненне Байесаўскай статыстыкі да задач аптычнага распазнавання сімвалаў, што было праілюстравана Бледсо і Броўнінгам у 1959 годзе. Тады шляхам вывучэння прыкладаў літар быў атрыманы вялікі слоўнік магчымых літар. Іншыя спробы прымянення Байесаўскай статыстыкі для аналізу мовы ўключаюць працы Мостэллера і Уоллес (1963), у якіх быў выкарыстаны аналіз слоў часопісаў The Federalist Papers з мэтай вызначэння іх аўтарства (мяркуецца, што Мэдысан, хутчэй за ўсё, з’яўляецца аўтарам большасці часопісаў).[29]

У 1971 годзе Тэры Вінаград распрацаваў ранні рухавік апрацоўкі натуральнай мовы, здольны інтэрпрэтаваць натуральна пісьмовыя каманды ў асяроддзі, кіруемым простымі правіламі. Праграма моўнага разбору ў гэтым праекце мела назву SHRDLU. Яна была здольная выконваць у некаторым родзе натуральную размову з карыстальнікам, даючы ёй розныя каманды. Але ўсё гэта выконвалася толькі ў межах цацачнага асяроддзя, прызначанага для выканання дадзенай задачы. Гэтая серада складалася з блокаў рознай формы і колеру, і SHRDLU магла інтэрпрэтаваць такія каманды, як «Знайсці блок, які вышэй, чым той, які ты трымаеш у руках, і пакласці яго ў скрынку.» і задаваць такія пытанні, як: «Я не разумею, якую піраміду вы маеце на ўвазе.» у адказ на ўвод карыстальніка.[30] Нягледзячы на ўражлівасць, гэты від апрацоўкі натуральнай мовы апынуўся значна больш складаным за межамі цацачнага асяроддзя. Падобным чынам NASA быў распрацаваны праект пад назвай Lunar. Ён даваў адказы на пісьмовыя пытанні аб геалагічным аналізе месяцовых парод, вернутых у выніку місій Апалонам.[31] Такія сістэмы называюцца пытанне-адказнымі сістэмамі, альбо QA-сістэмамі.

Першапачатковыя спробы разумець гутарковую мову былі заснаваны на працы, праведзенай у 1960-я і 1970-я гады ў вобласці мадэлявання сігналу, дзе невядомы сігнал аналізуецца для пошуку мадэляў і распрацоўцы прагнозаў, заснаваныя на яго гісторыі. Пачатковы і ў некаторым сэнсе паспяховы падыход да прымянення такога роду сігнальнага мадэлявання для мовы быў дасягнуты з выкарыстаннем схаваных Маркаўскіх мадэляў, што падрабязна апісана Рабінер у 1989 годзе.[32] Гэты падыход спрабуе вызначыць верагоднасць для адвольнага ліку мадэляў, якія могуць быць выкарыстаны пры стварэнні маўлення, а таксама пры мадэляванні верагоднасці для розных слоў, атрыманых ад кожнага з гэтых магчымых мадэляў.[33]

Зусім нядаўна гэтыя віды статыстычных падыходаў былі ўжыты для больш складаных задач, такіх як, напрыклад, вызначэнне тэмы з выкарыстаннем ацэнкі Байесаўскіх параметраў, каб вывесці верагоднасць сустрэчы тых альбо іншых тэм у тэкставых дакументах.[34]

Прымяненне[правіць | правіць зыходнік]

Сучасная камп’ютарная лінгвістыка часта з’яўляецца спалучэннем ведаў у такіх галінах, як інфарматыка, праграмаванне, матэматыка, статыстыка, структура мовы i апрацоўка натуральнай мовы. У сукупнасці гэтыя палі часцей за ўсё прыводзяць да стварэння сістэм, якія могуць распазнаваць маўленне і на аснове гэтага выконваць некаторыя задачы. Прыклады ўключаюць у сябе розныя прадукты ПЗ па распазнанню маўлення, такія як сістэма Siri ад Apple, інструменты для выпраўлення пісьмовых памылак, праграмы сінтэзу маўлення (якія часта выкарыстоўваюцца для дэманстрацыі вымаўлення альбо для дапамогі інвалідам), а таксама праграмы машыннага перакладу і вэб-сайты, такія як Google Translate і Word Reference.[35]

Камп’ютарная лінгвістыка можа быць асабліва карысна ў сітуацыях, звязаных з сацыяльнымі медыя і Інтэрнэтам. Напрыклад, камп’ютарная лінгвістыка патрабуецца ў фільтрах для чатаў або ў пошуку на вэб-сайтах. Чат-аператары часта выкарыстоўваюць фільтры, каб ідэнтыфікаваць пэўныя словы або фразы, і не дазваляюць карыстальнікам іх адсылаць, калі лічаць іх непрыстойнымі. Іншы прыклад выкарыстання фільтраў прадстаўлены на вэб-сайтах. Школы выкарыстоўваюць фільтры, каб схаваць ад дзяцей вэб-сайты з пэўнымі ключавымі словамі. Ёсць таксама шмат праграм, у якіх бацькі выкарыстоўваюць так званы Бацькоўскі кантроль. Камп’ютарныя лінгвісты могуць таксама распрацоўваць праграмы, групы і арганізацыі кантэнту праз Майнінг сацыяльных медыя. Прыкладам гэтага з’яўляецца Twitter, у яком праграмы могуць групаваць твіты па тэме або ключавым словам. Камп’ютарная лінгвістыка таксама выкарыстоўваецца для пошуку дакументаў і кластарызацыі. Калі вы робіце пошук у Інтэрнэце, дакументы і вэб-сайты вяртаюцца на аснове частаты ўнікальных пазнак, адпаведных таму, што вы ўвялі ў пошукавую сістэму. Напрыклад, калі вы шукаеце «чырвоны, вялікі, чатырохколавы транспартны сродак» з мэтай знайсці фатаграфіі чырвонага грузавіка, пошукавая сістэма будзе знаходзіць патрэбную інфармацыю супастаўленнем слова «чатырохколавы» са словам «аўтамабіль».[36]

Астатнія сферы[правіць | правіць зыходнік]

Камп’ютарная лінгвістыка можа быць падзелена на асноўныя напрамкі ў залежнасці ад тыпу мовы, якая апрацоўваецца (вусная ці тэкставая); і ад таго, які працэс выконваецца: аналіз мовы (распазнаванне) або сінтэз мовы (стварэнне).

Распазнаванне і сінтэз маўлення мае справу з тым, як гутарковая мова можа быць зразумета ці створана з дапамогай камп’ютараў. Парсінг і генерацыя з’яўляюцца падраздзяленнямі камп’ютарнай лінгвістыкі, звязаных адпаведна з расчляненнем мовы і складаннем яе разам. Машынны пераклад застаецца падраздзяленнем камп’ютарнай лінгвістыкі, якая займаецца перакладам паміж мовамі камп’ютарам. Магчымасць аўтаматычнага перакладу мовы, аднак, і дагэтуль застаецца надзвычай цяжкай задачай.

Спіс некаторых абласцей даследаванняў па камп’ютарнай лінгвістыцы:

  • Камп’ютарная складанасць натуральнай мовы, у асноўным па ўзоры тэорыі аўтаматаў, з ужываннем кантэкстна-залежнай граматыкі і лінейна абмежаваных машын Цьюрынга.
  • Вылічальная семантыка ўключае ў сябе вызначэнне падыходнай логікі для лінгвістычнага прадстаўлення сэнсу, аўтаматычна іх будуючы і разважаючы з імі
  • Камп’ютарызаваныя корпусная лінгвістыка, якая выкарыстоўваецца з 1970-х гадоў як спосаб зрабіць дэталёвыя дасягненні ў галіне аналізу дыскурсу.[37]
  • Распрацоўка парсераў або чанкераў для натуральных моў
  • Распрацоўка праграм тэгіравання як POS-Taggers (часткамоўная разметка)
  • Машынны пераклад як адзін з самых ранніх і самых складаных задач камп’ютарнай лінгвістыкі прыцягвае іншыя сферы.
  • Мадэляванне і даследаванне эвалюцыі мовы ў гістарычнай лінгвістыцы / глотахраналогіі. 

Спадчына[правіць | правіць зыходнік]

Прадмет камп’ютарнай лінгвістыкі паўплываў на масавую культуру:

  • У 1983 ў фільме WarGames дзейнічаў малады камп’ютарны хакер, які ўзаемадзейнічае са штучным інтэлектам.[38]
  • Фільм 1997 года, Conceiving Ada, факусуецца на Адзе Лавлейс, якая лічыцца адным з першых навукоўцаў-камп’ютарнікаў (у тым ліку камп’ютарнай лінгвісткай).[39]
  • Her, фільм 2013 года, адлюстроўвае ўзаемадзеянне чалавека з «першай у свеце аперацыйнай сістэмай штучнага інтэлекту.»[40]
  • Зняты ў 2013, фільм The Imitation Game паведамляе аб навукоўцы Алане Цьюрынге, распрацоўшчыку тэсту Цьюрынга.[41]
  • Фільм 2015 году Ex Machina засяроджваецца вакол узаемадзеяння чалавека са штучным інтэлектам.[42]

Зноскі[правіць | правіць зыходнік]

  1. Uszkoreit, Hans What Is Computational Linguistics?. Department of Computational Linguistics and Phonetics of Saarland University.
  2. What is Computational Linguistics?. The Association for Computational Linguistics (1 лютага 2005).
  3. John Hutchins: Retrospect and prospect in computer-based translation. Proceedings of MT Summit VII, 1999, pp. 30–44.
  4. Arnold B. Barach: Translating Machine 1975: And the Changes To Come.
  5. T. Crowley., C. Bowern. An Introduction to Historical Linguistics. Auckland, N.Z.: Oxford UP, 1992. Print.
  6. Deceased members. Праверана 15 лістапада 2017.
  7. Liz Liddy, Eduard Hovy, Jimmy Lin, John Prager, Dragomir Radev, Lucy Vanderwende, Ralph Weischedel. Natural Language Processing (англ.) .
  8. Computational Linguistics and Phonestics (англ.) . «coli.uni-saarland.de». Праверана 12 кастрычніка 2018.
  9. "Yatsko's Computational Linguistics Laboratory".
  10. "CLIP".
  11. Computational Linguistics – Department of Linguistics – Georgetown College
  12. "UPenn Linguistics: Computational Linguistics".
  13. Jurafsky, D., & Martin, J. H. (2009). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Upper Saddle River, N.J: Pearson Prentice Hall.
  14. Bowerman, M. (1988). The "no negative evidence" problem: How do children avoid constructing an overly general grammar. Explaining language universals.
  15. Braine, M.D.S. (1971). On two types of models of the internalization of grammars. In D.I. Slobin (Ed.), The ontogenesis of grammar: A theoretical perspective. New York: Academic Press.
  16. Powers, D.M.W. & Turk, C.C.R. (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.
  17. 17,0 17,1 Elman, J. (1993). Learning and development in neural networks: The importance of starting small. Cognition, 71-99.
  18. Salvi, G., Montesano, L., Bernardino, A., & Santos-Victor, J. (2012). Language bootstrapping: learning word meanings from perception-action association. IEEE transactions on systems, man, and cybernetics. Part B, Cybernetics : a publication of the IEEE Systems, Man, and Cybernetics Society, 42(3), 660-71. DOI:10.1109/TSMCB.2011.2172420
  19. Gong, T.; Shuai, L.; Tamariz, M.; Jäger, G. (2012). E. Scalas. ed. "Studying Language Change Using Price Equation and Pólya-urn Dynamics". PLoS ONE 7 (3): e33171. doi:10.1371/journal.pone.0033171. 
  20. Marcus, M.; Marcinkiewicz, M. (1993). "Building a large annotated corpus of English: The Penn Treebank". Computational linguistics 19 (2): 313–330. https://www.aclweb.org/anthology/J/J93/J93-2004.pdf. 
  21. Taylor, Ann (2003). "1". Treebanks. Spring Netherlands. pp. 5-22. 
  22. Angus, D.; Smith, A.; Wiles, J. (2012). "Conceptual recurrence plots: revealing patterns in human discourse". IEEE transactions on visualization and computer graphics 18 (6): 988–97. doi:10.1109/TVCG.2011.100. 
  23. Furuhashi, S.; Hayakawa, Y. (2012). "Lognormality of the Distribution of Japanese Sentence Lengths". Journal of the Physical Society of Japan 81 (3): 034004. doi:10.1143/JPSJ.81.034004. 
  24. Turing, A. M. (1950). "Computing machinery and intelligence". Mind 59 (236): 433–460. doi:10.1093/mind/lix.236.433. 
  25. Weizenbaum, J. (1966). "ELIZA—a computer program for the study of natural language communication between man and machine". Communications of the ACM 9 (1): 36–45. doi:10.1145/365153.365168. 
  26. Och, F. J.; Ney, H. (2003). "A Systematic Comparison of Various Statistical Alignment Models". Computational Linguistics 29 (1): 19–51. doi:10.1162/089120103321337421. http://www.mitpressjournals.org/doi/pdf/10.1162/089120103321337421. 
  27. Mairesse, F. (2011). "Controlling user perceptions of linguistic style: Trainable generation of personality traits". Computational Linguistics 37 (3): 455–488. doi:10.1162/COLI_a_00063. http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00063. 
  28. Language Files. The Ohio State University Department of Linguistics. 2011. pp. 624–634. ISBN 9780814251799. 
  29. Mosteller, F. (1963). "Inference in an authorship problem". Journal of the American Statistical Association 58 (302): 275–309. doi:10.2307/2283270. 
  30. Winograd, T. Procedures as a Representation for Data in a Computer Program for Understanding Natural Language (1971).
  31. Woods, W.; Kaplan, R.; Nash-Webber, B. (1972). The lunar sciences natural language information system. https://www.researchgate.net/publication/247926251_The_Lunar_Science_Natural_Language_Information_System_Final_Report. 
  32. Rabiner, L. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE. doi:10.1109/5.18626. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=18626. 
  33. Bahl, L.; Baker, J.; Cohen, P.; Jelinek, F. (1978). "Recognition of continuously read natural corpus". Acoustics, Speech, and Signal 3: 422–424. doi:10.1109/ICASSP.1978.1170402. http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1170402. 
  34. Blei, D.; Ng, A. (2003). "Latent dirichlet allocation". The Journal of Machine Learning 3: 993–1022. http://dl.acm.org/citation.cfm?id=944937. 
  35. Careers in Computational Linguistics. California State University.
  36. Computational Linguistics (26 лютага 2014).
  37. McEnery, Thomas (1996). Corpus Linguistics: An Introduction. Edinburgh: Edinburgh University Press. p. 114. ISBN 0748611657. https://books.google.com/books?id=nwmgdvN_akAC&pg=PA114&lpg=PA114&dq=%22computer+aided+corpus+linguistics%22&source=bl&ots=9McOnkDLQh&sig=1fwQ0LzbQveZaXuF80WfkFJOsYY&hl=en&sa=X&ei=fSdLUs2GMsemqQHwk4GABQ&sqi=2&ved=0CCoQ6AEwAA#v=onepage&q=%22computer%20aided%20corpus%20linguistics%22&f=false. 
  38. Badham, John (1983-06-03). WarGames. https://www.imdb.com/title/tt0086567/. Retrieved on 2016-02-22. 
  39. Hershman-Leeson, Lynn (1999-02-19). Conceiving Ada. https://www.imdb.com/title/tt0118882/. Retrieved on 2016-02-22. 
  40. Jonze, Spike (2014-01-10). Her. https://www.imdb.com/title/tt1798709/. Retrieved on 2016-02-18. 
  41. Tyldum, Morten (2014-12-25). The Imitation Game. https://www.imdb.com/title/tt2084970/?ref_=nv_sr_1. Retrieved on 2016-02-18. 
  42. Garland, Alex (2015-04-24). Ex Machina. https://www.imdb.com/title/tt0470752/. Retrieved on 2016-02-18.