Перайсці да зместу

Вялікая моўная мадэль

З Вікіпедыі, свабоднай энцыклапедыі

Вялікая моўная мадэль (англ.: large language model, LLM) — гэта моўная мадэль, створаная на аснове вялікай колькасці тэкстаў з дапамогай машыннага навучання.[1] Вялікія моўныя мадэлі прызначаныя для задач апрацоўкі натуральнай мовы, у прыватнасці генерацыі тэксту. Згенераваны тэкст з'яўляецца супастаўляльным па характарыстыках з натуральнай чалавечай мовай, што прывяло да шырокага выкарыстання вялікіх моўных мадэляў у чат-ботах.

Найбольш магутнымі вялікімі моўнымі мадэлямі з'яўляюцца так званыя генератыўныя трансформеры з папярэднім навучаннем (англ.: generative pre-trained transformers, GPT). Аднак нават яны наследуюць недакладнасці і скажэнні з даных, на якіх адбываецца іх навучанне.[2]

Вялікія моўныя мадэлі, акрамя генерацыі, здольныя падсумаваць і перакласці тэкст, а таксама прапанаваць ход разважання над пастаўленай задачай. Яны аб'ядноўваюць здольнасці падтрымліваць размову, генераваць код, шукаць інфармацыю і абгрунтоўваць сцверджанні. Раней кожная з гэтых задач патрабавала асобнай праграмнай сістэмы.[3]

Вялікія моўныя мадэлі з'яўляюцца вынікам развіцця статыстычных моўных мадэляў і мадэляў на рэкурэнтных нейронных сетках. Механізм увагі, распрацаваны Дзмітрыем Багданавым, стаў крокам для стварэння трансформеннай архітэктуры ў 2017 годзе. Трансформенная архітэктура дазволіла апрацоўваць большы кантэкст і масштабаваць навучанне на небывалай колькасці даных. Гэта ў сваю чаргу прывяло да стварэння першых прарыўных мадэляў, такіх як GPT і BERT.

Навучанне з падмацаваннем (англ.: reinforcement learning) было адаптавана для тонкай наладкі вялікіх моўных мадэляў, каб пашырыць іх паводзіны за межы прагназавання наступнага токена.

  1. Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Matthew; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma (2021). On the Opportunities and Risks of Foundation Models. arXiv:2108.07258 [cs.LG].
  2. Manning, Christopher D. (2022). Human Language Understanding & Reasoning. Daedalus. 151 (2): 127–138. doi:10.1162/daed_a_01905. S2CID 248377870. Архівавана з арыгінала 2023-11-17. Праверана 2023-03-09.
  3. Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361 [cs.LG].