Моўная мадэль
Моўная мадэль (англ.: language model) — гэта імавернасная мадэль натуральнай мовы[1]. Першая значная статыстычная моўная мадэль была прапанавана ў 1980 годзе і цягам дзесяцігоддзя кампанія IBM правяла шэраг эксперыментаў у «стылі Шэнана» (Shannon-style), у якіх патэнцыйныя крыніцы для паляпшэння мадэлявання моў вызначаліся праз назіранне і аналіз здольнасці людскіх падвопытных прадказваць або выпраўляць тэксты[2].
Моўныя мадэлі карысныя для розных задач, у тым ліку для распазнаванне маўлення[3] (дапамагаючы прадухіліць прадказанні малаімаверных, напрыклад, бессэнсоўных, паслядоўнасцей), машыннага перакладу[4], генеравання натуральнай мовы (стварэнне тэксту, найбольш падобнага на чалавечы), аптычнага распазнаванне сімвалаў , распазнавання почырку[5], індукцыі граматыкі[6]. і інфармацыйнага пошуку[7][8].
Вялікія моўныя мадэлі з’яўляюцца сёння найбольш прасунутай іх формай, з’яўляючыся камбінацыяй большых набораў даных (часта выкарыстоўваючы словы, узятыя з агульнадаступнага інтэрнэту), праманакіраваных нейронных сетак і трансформераў . Яны замянілі сабой мадэлі, заснаваныя на рэкурэнтных нейронных сетках ,якія раней замянілі чыста-статыстычныя мадэлі, такія як слоўныя n-грамныя моўныя мадэлі .
Чыста-статыстычныя мадэлі
[правіць | правіць зыходнік]Мадэлі, заснаваныя на слоўных n-грамах
[правіць | правіць зыходнік]Экспаненцыйныя
[правіць | правіць зыходнік]Моўныя мадэлі з максімумам энтрапіі кадзіруюць узаемаадносіны паміж словам і гісторыяй n-грама, ужываючы функцыі адзнак. Ураўненне будзе мець наступны выгляд
дзе — гэта функцыя разбівання , — гэта вектар параметраў, а — функцыя адзнак. У найпрасцейшым выпадку функцыя адзнак будзе індыкатарам прысутнасці пэўнага n-грама. Карысна ўжываць апрыёрнае размеркаванне на або нейкую форму рэгулярызацыі .
Лог-білінейная мадэль — яшчэ адзін прыклад экспаненцыйнай моўнай мадэлі.
Нейронныя мадэлі
[правіць | правіць зыходнік]Рэкурэнтныя нейронныя сеткі
[правіць | правіць зыходнік]Бесперарыўныя прадстаўленні або убудаванне слоў ствараюцца ў моўных мадэлях, заснаваных на рэкурэнтных нейронных сетках (вядомыя таксама як моўныя мадэлі з бесперапыннай прасторай).[9] Такія ўбудаванні ў бесперапыннай прасторы дапамагаюць змякчыць праклён памернасці , які з’яўляецца следствам таго, што колькасць магчымых паслядоўнасцей слоў павялічваецца ў экспанентна разам з памерам слоўнікавага запасу, што ў будучым выклікае праблему разрэджанасці даных. Нейронныя сеткі абыходзяць гэту праблему прадстаўляючы словы як нелінейныя камбінацыя вагаў у нейроннай сетцы.[10]
Вялікія моўныя мадэлі
[правіць | правіць зыходнік]Ацэнка і параўнаўчыя тэсты
[правіць | правіць зыходнік]Ацэнка якасці моўных мадэляў часцей робіцца праз параўнанне створаных чалавекам з тыпічных моўна-арыентаваных задач эталонаў. Іншыя, менш рэгламентаваныя тэсты якасці даследуюць унутраны характар моўнай мадэлі або параўноўваюць дзве такія мадэлі. Паколькі ў моўных мадэлях звычайна закладаецца іх дынамічнасць і навучанне з даных, якія яны бачаць, некаторыя прапанаваныя мадэлі даследуюць хуткасць навучання, напр., шляхам праверкі крывых навучання.[11]
Для ацэнкі сістэм апрацоўкі мовы былі распрацаваны розныя наборы даных[12]. Да іх адносяцца:
- Корпус лінгвістычнай прымальнасці[13]
- GLUE benchmark[14]
- Microsoft Research Paraphrase Corpus[15]
- Шматжанравае мадэляванне вываду на натуральнай мове
- Пытанні праз інтэрфейсы на натуральнай мове
- Пары пытанняў-адказаў Quora[16]
- Распазнаванне імпліцытных ведаў у тэкстах[17]
- Эталон семантычнага тэкставага падабенства
- Тэст адказу на пытанні SQuAD[18]
- Stanford Sentiment Treebank[19]
- Winograd NLI
- BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[20] (LLaMa Benchmark)
Крыніцы
[правіць | правіць зыходнік]- ↑ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (3rd ed.). Архівавана з арыгінала 22 May 2022. Праверана 24 May 2022.
- ↑ Rosenfeld, Ronald (2000). "Two decades of statistical language modeling: Where do we go from here?". Proceedings of the IEEE. 88 (8): 1270–1278. doi:10.1109/5.880083. S2CID 10959945.
- ↑ Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
- ↑ Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" Архівавана 15 жніўня 2020 года.. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
- ↑ Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" Архівавана 11 лістапада 2020 года.. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
- ↑ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" Архівавана 14 жніўня 2022 года.. arΧiv:1808.10000.
- ↑ Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. pp. 275–281. doi:10.1145/290941.291008.
- ↑ Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. pp. 569–584. doi:10.1007/3-540-49653-X_34.
- ↑ The Unreasonable Effectiveness of Recurrent Neural Networks . Архівавана з першакрыніцы 1 November 2020. Праверана 27 January 2019.
- ↑ Bengio, Yoshua (2008). "Neural net language models". Scholarpedia. Vol. 3. p. 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881. Архівавана з арыгінала 26 October 2020. Праверана 28 August 2015.
- ↑ Karlgren, Jussi; Schutze, Hinrich (2015), "Evaluating Learning Language Representations", International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, Springer International Publishing, pp. 254–260, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018-10-10). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL].
- ↑ The Corpus of Linguistic Acceptability (CoLA) . nyu-mll.github.io. Архівавана з першакрыніцы 7 December 2020. Праверана 25 лютага 2019.
- ↑ GLUE Benchmark (англ.). gluebenchmark.com. Архівавана з першакрыніцы 4 November 2020. Праверана 25 лютага 2019.
- ↑ Microsoft Research Paraphrase Corpus(нявызн.). Microsoft Download Center. Архівавана з першакрыніцы 25 October 2020. Праверана 25 лютага 2019.
- ↑ Aghaebrahimian, Ahmad (2017), "Quora Question Answer Dataset", Text, Speech, and Dialogue, Lecture Notes in Computer Science, vol. 10415, Springer International Publishing, pp. 66–73, doi:10.1007/978-3-319-64206-2_8, ISBN 9783319642055
- ↑ Recognizing Textual Entailment(недаступная спасылка). Архівавана з першакрыніцы 9 August 2017. Праверана February 24, 2019.
- ↑ The Stanford Question Answering Dataset . rajpurkar.github.io. Архівавана з першакрыніцы 30 October 2020. Праверана 25 лютага 2019.
- ↑ Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank . nlp.stanford.edu. Архівавана з першакрыніцы 27 October 2020. Праверана 25 лютага 2019.
- ↑ Hendrycks, Dan (2023-03-14), Measuring Massive Multitask Language Understanding, Архівавана з арыгінала 15 March 2023, Праверана 2023-03-15
Дадатковая літаратура
[правіць | правіць зыходнік]- J M Ponte; W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval. pp. 275–281. CiteSeerX 10.1.1.117.4237.
- F Song; W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval. pp. 279–280. CiteSeerX 10.1.1.21.6467.
- Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458.