Моўная мадэль

З Вікіпедыі, свабоднай энцыклапедыі


Моўная мадэль (англ.: language model) — гэта імавернасная мадэль натуральнай мовы[1]. Першая значная статыстычная моўная мадэль была прапанавана ў 1980 годзе і цягам дзесяцігоддзя кампанія IBM правяла шэраг эксперыментаў у «стылі Шэнана» (Shannon-style), у якіх патэнцыйныя крыніцы для паляпшэння мадэлявання моў вызначаліся праз назіранне і аналіз здольнасці людскіх падвопытных прадказваць або выпраўляць тэксты[2].

Моўныя мадэлі карысныя для розных задач, у тым ліку для распазнаванне маўлення[3] (дапамагаючы прадухіліць прадказанні малаімаверных, напрыклад, бессэнсоўных, паслядоўнасцей), машыннага перакладу[4], генеравання натуральнай мовы[en] (стварэнне тэксту, найбольш падобнага на чалавечы), аптычнага распазнаванне сімвалаў[en], распазнавання почырку[en][5], індукцыі граматыкі[en][6]. і інфармацыйнага пошуку[en][7][8].

Вялікія моўныя мадэлі[en] з’яўляюцца сёння найбольш прасунутай іх формай, з’яўляючыся камбінацыяй большых набораў даных (часта выкарыстоўваючы словы, узятыя з агульнадаступнага інтэрнэту), праманакіраваных нейронных сетак[en] і трансформераў[en]. Яны замянілі сабой мадэлі, заснаваныя на рэкурэнтных нейронных сетках[en],якія раней замянілі чыста-статыстычныя мадэлі, такія як слоўныя n-грамныя моўныя мадэлі[en].

Чыста-статыстычныя мадэлі[правіць | правіць зыходнік]

Мадэлі, заснаваныя на слоўных n-грамах[правіць | правіць зыходнік]

Экспаненцыйныя[правіць | правіць зыходнік]

Моўныя мадэлі з максімумам энтрапіі[en] кадзіруюць узаемаадносіны паміж словам і гісторыяй n-грама, ужываючы функцыі адзнак. Ураўненне будзе мець наступны выгляд

дзе — гэта функцыя разбівання[en], — гэта вектар параметраў, а — функцыя адзнак. У найпрасцейшым выпадку функцыя адзнак будзе індыкатарам прысутнасці пэўнага n-грама. Карысна ўжываць апрыёрнае размеркаванне[en] на або нейкую форму рэгулярызацыі[en].

Лог-білінейная мадэль — яшчэ адзін прыклад экспаненцыйнай моўнай мадэлі.

Нейронныя мадэлі[правіць | правіць зыходнік]

Рэкурэнтныя нейронныя сеткі[правіць | правіць зыходнік]

Бесперарыўныя прадстаўленні або убудаванне слоў[en] ствараюцца ў моўных мадэлях, заснаваных на рэкурэнтных нейронных сетках[en] (вядомыя таксама як моўныя мадэлі з бесперапыннай прасторай).[9] Такія ўбудаванні ў бесперапыннай прасторы дапамагаюць змякчыць праклён памернасці[en], які з’яўляецца следствам таго, што колькасць магчымых паслядоўнасцей слоў павялічваецца ў экспанентна[en] разам з памерам слоўнікавага запасу, што ў будучым выклікае праблему разрэджанасці даных. Нейронныя сеткі абыходзяць гэту праблему прадстаўляючы словы як нелінейныя камбінацыя вагаў у нейроннай сетцы.[10]

Вялікія моўныя мадэлі[правіць | правіць зыходнік]

Ацэнка і параўнаўчыя тэсты[правіць | правіць зыходнік]

Ацэнка якасці моўных мадэляў часцей робіцца праз параўнанне створаных чалавекам з тыпічных моўна-арыентаваных задач эталонаў. Іншыя, менш рэгламентаваныя тэсты якасці даследуюць унутраны характар моўнай мадэлі або параўноўваюць дзве такія мадэлі. Паколькі ў моўных мадэлях звычайна закладаецца іх дынамічнасць і навучанне з даных, якія яны бачаць, некаторыя прапанаваныя мадэлі даследуюць хуткасць навучання, напр., шляхам праверкі крывых навучання.[11]

Для ацэнкі сістэм апрацоўкі мовы былі распрацаваны розныя наборы даных[12]. Да іх адносяцца:

  • Корпус лінгвістычнай прымальнасці[13]
  • GLUE benchmark[14]
  • Microsoft Research Paraphrase Corpus[15]
  • Шматжанравае мадэляванне вываду на натуральнай мове
  • Пытанні праз інтэрфейсы на натуральнай мове
  • Пары пытанняў-адказаў Quora[16]
  • Распазнаванне імпліцытных ведаў у тэкстах[17]
  • Эталон семантычнага тэкставага падабенства
  • Тэст адказу на пытанні SQuAD[18]
  • Stanford Sentiment Treebank[19]
  • Winograd NLI
  • BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC, OpenBookQA, NaturalQuestions, TriviaQA, RACE, MMLU (Massive Multitask Language Understanding), BIG-bench hard, GSM8k, RealToxicityPrompts, WinoGender, CrowS-Pairs.[20] (LLaMa Benchmark)

Крыніцы[правіць | правіць зыходнік]

  1. Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (3rd ed.). Архівавана з арыгінала 22 May 2022. Праверана 24 May 2022.
  2. Rosenfeld, Ronald (2000). "Two decades of statistical language modeling: Where do we go from here?". Proceedings of the IEEE. 88 (8): 1270–1278. doi:10.1109/5.880083. S2CID 10959945.
  3. Kuhn, Roland, and Renato De Mori (1990). "A cache-based natural language model for speech recognition". IEEE transactions on pattern analysis and machine intelligence 12.6: 570–583.
  4. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" Архівавана 15 жніўня 2020 года.. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  5. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" Архівавана 11 лістапада 2020 года.. 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  6. Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman (2018). "Grammar induction with neural language models: An unusual replication" Архівавана 14 жніўня 2022 года.. arΧiv:1808.10000.
  7. Ponte, Jay M.; Croft, W. Bruce (1998). A language modeling approach to information retrieval. Proceedings of the 21st ACM SIGIR Conference. Melbourne, Australia: ACM. pp. 275–281. doi:10.1145/290941.291008.
  8. Hiemstra, Djoerd (1998). A linguistically motivated probabilistically model of information retrieval. Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. LNCS, Springer. pp. 569–584. doi:10.1007/3-540-49653-X_34.
  9. The Unreasonable Effectiveness of Recurrent Neural Networks. Архівавана з першакрыніцы 1 November 2020. Праверана 27 January 2019.
  10. Bengio, Yoshua (2008). "Neural net language models". Scholarpedia. Vol. 3. p. 3881. Bibcode:2008SchpJ...3.3881B. doi:10.4249/scholarpedia.3881. Архівавана з арыгінала 26 October 2020. Праверана 28 August 2015.
  11. Karlgren, Jussi; Schutze, Hinrich (2015). "Evaluating Learning Language Representations". International Conference of the Cross-Language Evaluation Forum. Lecture Notes in Computer Science. Springer International Publishing. pp. 254–260. doi:10.1007/978-3-319-64206-2_8. ISBN 9783319642055.
  12. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2018-10-10). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". arXiv:1810.04805 [cs.CL].
  13. The Corpus of Linguistic Acceptability (CoLA). nyu-mll.github.io. Архівавана з першакрыніцы 7 December 2020. Праверана 25 лютага 2019.
  14. GLUE Benchmark (англ.). gluebenchmark.com. Архівавана з першакрыніцы 4 November 2020. Праверана 25 лютага 2019.
  15. Microsoft Research Paraphrase Corpus(нявызн.). Microsoft Download Center. Архівавана з першакрыніцы 25 October 2020. Праверана 25 лютага 2019.
  16. Aghaebrahimian, Ahmad (2017). "Quora Question Answer Dataset". Text, Speech, and Dialogue. Lecture Notes in Computer Science. Vol. 10415. Springer International Publishing. pp. 66–73. doi:10.1007/978-3-319-64206-2_8. ISBN 9783319642055.
  17. Recognizing Textual Entailment. Архівавана з першакрыніцы 9 August 2017. Праверана February 24, 2019.
  18. The Stanford Question Answering Dataset. rajpurkar.github.io. Архівавана з першакрыніцы 30 October 2020. Праверана 25 лютага 2019.
  19. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. nlp.stanford.edu. Архівавана з першакрыніцы 27 October 2020. Праверана 25 лютага 2019.
  20. Hendrycks, Dan (2023-03-14). Measuring Massive Multitask Language Understanding. Архівавана з арыгінала 15 March 2023. Праверана 2023-03-15.

Дадатковая літаратура[правіць | правіць зыходнік]

  • J M Ponte; W B Croft (1998). "A Language Modeling Approach to Information Retrieval". Research and Development in Information Retrieval. pp. 275–281. CiteSeerX 10.1.1.117.4237.
  • F Song; W B Croft (1999). "A General Language Model for Information Retrieval". Research and Development in Information Retrieval. pp. 279–280. CiteSeerX 10.1.1.21.6467.
  • Chen, Stanley; Joshua Goodman (1998). An Empirical Study of Smoothing Techniques for Language Modeling (Technical report). Harvard University. CiteSeerX 10.1.1.131.5458.