AlphaZero

З Вікіпедыі, свабоднай энцыклапедыі

«AlphaZero» — камп’ютарная праграма распрацоўкі кампаніі «DeepMind» (ва ўласнасці Google), пераемнік алгарытма «AlphaGo Zero». У адрозненне ад апошняй, распрацаваная з магчымасцю гульні не толькі ў го, але таксама ў шахматы і сёгі.

5 снежня 2017 года «DeepMind» выпусціў праграму «AlphaZero», якая на працягу наступных 24 гадзін прааналізавала правілы ўсіх трох гульняў і перамагла ўсе камп’ютарныя праграмы-чэмпіёны: Stockfish (шахматы), elmo (сёгі) і 3-хдзённую версію праграмы AlphaGo Zero (го). Для трэніроўкі «AlphaZero» карысталася «саманавучаннем» з дапамогай 5000 TPU першага пакалення і навучаннем нейронных сетак з дапамогай 64-х TPU другога пакалення, пры гэтым не маючы доступу да дэбютных ці эндшпільных кнігаў.

Матч паміж «AlphaZero» і «Stockfish 8» са 100 гульняў скончыўся на карысць першай з вынікам 28 перамогаў, 0 паразаў і 72 нічыі. У адрозненьне ад «Stockfish» і «elmo», якія за секунду знаходзяць 70 мільёнаў і 35 мільёнаў пазіцый адпаведна, «AlphaZero» шукае ўсяго 80 000 пазіцый, кампенсуючы гэта глыбінёй нейроннай сеткі, каб абраць найбольш аптымальныя варыянты.

У матчы ў сёгі супраць «elmo» «AlphaZero» перамог у 90 партыях са ста, прайграў 8 разоў і двойчы згуляў унічыю. У гульні з «AlphaGo Zero» у го «AlphaZero» перамог у 60 партыях і прайграў у 40.

Зноскі

Спасылкі[правіць | правіць зыходнік]