Перайсці да зместу

Генератыўны штучны інтэлект

З Вікіпедыі, свабоднай энцыклапедыі
Фотарэалістычны партрэт, створаны генератыўнай спаборнай сеткай.

Генератыўны штучны інтэлект — катэгорыя сістэм штучнага інтэлекту, прызначаных для стварэння змесціва, такога як тэкст, відарысы, аўдыя і іншыя віды сінтэтычных даных. Тэхналогія атрымала развіццё са з’яўленнем такіх алгартымаў машыннага навучання, як генератыўныя спаборныя сеткі і трансформеры[1][2].

Мадэлі для генерацыі змесціва будуюцца на аснове вялікіх набораў даных. У працэсе навучання мадэль атрымлівае здольнасць імітаваць структуры з сапраўдных даных і генераваць з іх дапамогай новыя, сінтэтычныя даныя[en]. Найбольшае распаўсюджанне ў галіне генерацыі змесціва атрымалі такія тыпы мадэлей, як трансформерныя і дыфузныя[en] мадэлі, генератыўныя спаборныя сеткі і варыяцыйныя аўтакадавальнікі[en][3].

Першымі генератыўнымі мадэлямі былі скрытыя маркаўскія мадэлі[en] і мадэлі гаусавых сумесей[en], распрацаваныя ў 1950-х гадах. Яны маглі генераваць даныя паслядоўнай прыроды, напрыклад маўленне і часавыя шэрагі[en][4].

У галіне апрацоўкі натуральнай мовы класічнымі мадэлямі для генерацыі тэксту сталі імавернасныя мадэлі[en], заснаваныя на n-грамах[en] слоў. Такія мадэлі ацэньваюць размеркаванне імавернасцей сустрэць тое ці іншае слова ў тэксце побач з іншымі словамі і ствараюць найбольш імаверныя паслядоўнасці слоў[4]. Наступным крокам у генерацыі тэксту сталі рэкурэнтныя нейронныя сеткі[en], што дазволілі генераваць даўжэйшыя сказы, улічваючы больш далёкія элементы ў паслядоўнасці. Такія механізмы, як доўгая кароткатэрміновая памяць[en] і вентыльны рэкурэнтны блок[en] паказалі здольнасць падтрымліваць кантэкст даўжынёй да двухсот элементаў[4].

У галіне камп’ютарнага зроку традыцыйнымі метадамі генерацыі відарысаў былі сінтэз і накладанне тэкстур. Складанасць і разнастайнасць відарысаў, атрыманых такім чынам, была абмежавана неабходнасцю ўручную задаваць прыкметы для накладання[4]. У 2014 годзе з’явіліся першыя генератыўныя спаборныя сеткі, што маглі ствараць відарысы больш якасныя і рэалістычныя, чым гэта ўдавалася папярэднім алгарытмам[4][5].

Архітэктура трансформерных мадэлей была прадстаўлена ў 2017 годзе ў рабоце Ашыша Васвані[en] і ягоных калег з Google Brain[6]. Першапачаткова трансформеры прымяняліся ў задачах апрацоўкі натуральнай мовы і паказвалі лепшыя вынікі, чым рэкурэнтныя нейронныя сеткі. Праз некаторы час архітэктура была пашырана на задачы камп’ютарнага зроку. Таксама былі распрацаваны трансформерныя мадэлі, здольныя спалучаць у сабе даныя некалькіх тыпаў (мадальнасцей), напрыклад CLIP[en], якая працуе як з тэкстамі, так і з відарысамі. Трансформерная архітэктура лягла ў аснову такіх генератыўных мадэлей як GPT[en] для напісання тэксту і DALL-E для стварэння відарысаў паводле тэкставага апісання[4].

У 2022 годзе даследчай арганізацыяй OpenAI быў прадстаўлены чат-бот ChatGPT, які можа генераваць рэплікі, што сімулююць дыялог паміж людзьмі, а не проста працягваць тэкст, як гэта робяць звычайныя мадэлі генерацыі тэксту. Такая здольнасць дасягаецца з дапамогай навучання з падмацаваннем праз водгукі людзей[en], якія аддаюць перавагу карысным адказам, падобным да рэплік у дыялогу[4]. У 2023 годзе былі выпушчаны аналагічныя мадэлі Claude[en] ад Anthropic[en] і Google Bard[en][7][8].

Асноўныя архітэктуры

[правіць | правіць зыходнік]

Генератыўныя спаборныя сеткі

[правіць | правіць зыходнік]

Архітэктура генератыўных спаборных сетак складаецца з дзвюх нейронных сетак: генератара і дыскрымінатара. Задача генератара — ствараць элементы даных (напрыклад, відарысы), у той час як дыскрымінатар павінен адрозніваць згенераваныя даныя ад сапраўдных. Дзве сеткі паступова навучаюцца разам, што прыводзіць да іх узаемнага ўдасканалення. Навучанне спыняецца тады, калі дыскрымінатар не можа адрозніць сапраўдныя даныя ад сфабрыкаваных[3].

Перавага такой архітэктуры ў тым, што яна дазваляе навучанне на неразмечаных даных. Асноўныя тэхнічныя цяжкасці — неабходнасць знайсці раўнавагу ў навучанні дзвюх сетак і схільнасць генератара ствараць вельмі падобныя адзін да аднаго элементы даных, што прыводзіць да нізкай разнастайнасці вынікаў генерацыі[3].

Варыяцыйныя аўтакадавальнікі

[правіць | правіць зыходнік]

Варыяцыйны аўтакадавальнік складаецца з кадавальнага і дэкадавальнага модулей. Кадавальны модуль трансфармуе ўваходныя даныя ў прастору меншай памернасці, што завецца скрытай прасторай. Пасля да рэпрэзентацыі дадаецца выпадковы шум з пэўнай дысперсіяй і дэкадавалььны модуль трансфармуе элементы скрытай прасторы назад у першапачатковую прастору даных. Сэмпліраванне з скрытай прасторы і прымяненне дэкадавальніка дазваляе генераваць новыя даныя[3].

Трансформерная архітэктура выкарыстоўвае механізм увагі[en] для таго, каб мадэль магла вывучыць залежнасці паміж элементамі паслядоўнасцей (напрыклад, словамі ў сказе), незалежна ад таго, як далёка адзін ад аднаго яны знаходзяцца. З’яўленне трансформераў пашырыла магчымасці штучнага інтэлекту ў такіх задачах як генерацыя тэксту і машынны пераклад. Трансформерная архітэктура стала асновай для такіх мадэлей, як GPT[en] і BERT[en][3].

Дыфузныя мадэлі

[правіць | правіць зыходнік]

У аснове дыфузных мадэлей ляжыць працэс паступовага дадавання выпадковага гаусавага шуму[en] да элементаў даных, пакуль яны не ператворацца ў чысты шум. Атрыманыя зашумленыя даныя выкарыстоўваюцца каб навучыць мадэль выконваць гэты працэс у адваротным кірунку, ператвараючы шум у зыходныя элементы даных[9].

Дыфузныя мадэлі выкарыстоўваюцца ў камп’ютарным зроку для генерацыі відарысаў паводле тэкставага апісання, нават калі апісанні адлюстроўваюць нерэалістычныя сцэнарыі, не прадстаўленыя ў даных для навучання мадэлі. Таксама з дапамогай дыфузных мадэлей можна рашаць такія задачы як павелічэнне разрознасці і рэдагаванне відарысаў[9]. У 2022 годзе быў распрацаваны метад генерацыі відэа па тэкставым апісанні з дапамогай дыфузных мадэлей[10].

Генератыўны штучны інтэлект выкарыстоўваецца для рашэння крэатыўных задач у шэрагу галін бізнэсу, тэхналогій, навукі і мастацтва, такіх як напрыклад:

  1. What is Gen AI? Generative AI explained (англ.). TechTarget.
  2. What is generative AI? (англ.). McKinsey.
  3. а б в г д Sengar, Sandeep Singh; Hasan, Affan Bin; Kumar, Sanjay; Carroll, Fiona (2024). "Generative Artificial Intelligence: A Systematic Review and Applications". arXiv:2405.11029v1.
  4. а б в г д е ё Yihan Cao; Siyu Li; Yixin Liu; Zhiling Yan; Yutong Dai; Philip S. Yu; Lichao Sun (2023). "A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT". arXiv:2303.04226.
  5. Ian J. Goodfellow; Jean Pouget-Abadie; Mehdi Mirza; Bing Xu; David Warde-Farley; Sherjil Ozair; Aaron Courville; Yoshua Bengio (2014). "Generative Adversarial Networks". arXiv:1406.2661.
  6. Ashish Vaswani; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez; Lukasz Kaiser; Illia Polosukhin (2017). "Attention Is All You Need". arXiv:1706.03762.
  7. Google-backed Anthropic launches Claude, an AI chatbot that’s easier to talk to (англ.). The Verge.
  8. Google Releases Bard, Its Competitor in the Race to Create A.I. Chatbots (англ.). The New York Times.
  9. а б F. -A. Croitoru, V. Hondru, R. T. Ionescu and M. Shah, «Diffusion Models in Vision: A Survey» in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 9, pp. 10850-10869, 1 Sept. 2023, doi: 10.1109/TPAMI.2023.3261988
  10. Ho, Jonathan; Salimans, Tim; Gritsenko, Alexey; Chan, William; Norouzi, Mohammad; Fleet, David J (2022). "Video diffusion models". arXiv:2204.03458.
  11. Huh, J., Nelson, M. R., & Russell, C. A. (2023). ChatGPT, AI Advertising, and Advertising Research and Education. Journal of Advertising, 52(4), 477—482. https://doi.org/10.1080/00913367.2023.2227013
  12. Lee, JaeJun; Eom, Soyoun; Lee, JunHee (2023). "EMPOWERING GAME DESIGNERS WITH GENERATIVE AI". IADIS INTERNATIONAL JOURNAL ON COMPUTER SCIENCE AND INFORMATION SYSTEMS.
  13. What impact will AI have on video game development? (англ.). MIT Technology Review.
  14. ‘Hold on to your seats’: how much will AI affect the art of film-making? (англ.). The Guardian.
  15. Generative AI Is Revolutionizing Music: The Vision For Democratizing Creation (англ.). Forbes.
  16. 3 Key Applications Of AI Voice Generation Technology (англ.). Forbes.
  17. Amazon’s Audiobook Narrators Can Now Make Their Own AI Voice Clones (англ.). Wired.
  18. Generative AI: Friend Or Foe For The Translation Industry? (англ.). Forbes.
  19. Hanlei Jin; Yang Zhang; Dan Meng; Jun Wang; Jinghua Tan (2024). "A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods". arXiv:2403.02901.
  20. How Generative AI Is Accelerating Drug Discovery (англ.). Forbes.
  21. Navigating the dual nature of generative AI: enhancing fraud detection while mitigating risks.
  22. The Impact of Generative AI on VR/AR.
  23. Teach with Generative AI.