Il y a toutefois un “mais”…
Voilà déjà l’une des vidéos les plus intéressantes de l’année sur Youtube : les premières confrontations sur Starcraft 2 entre l’IA de DeepMind, nommée AlphaStar, et l’humain. Les premiers rounds furent clairement en faveur de l’IA, gagnant 10-0 contre deux joueurs pros renommés, TLO et MaNa. Heureusement, le tout dernier match d’hier a vu une clair domination de l’humain sur la machine, ramenant le score à 10-1.
200 ans de Starcraft 2 en 7 jours
Partant de zéro, l’IA a entraîné son premier “agent” en trois jours en regardant 3500 matchs pour apprendre les bases du jeu, et imiter l’humain (imitation learning). Ensuite, DeepMind a créé une ligue interne de compétition en démultipliant les meilleurs agents pour les faire jouer les uns contre les autres (reinforcement learning).
Après une semaine de ligue, cinq des agents avec les meilleurs taux de victoire furent sélectionnés. Chacun avait alors totalisé 200 ans d’entraînement en 7 jours sur les supercalculateurs de Google. Ces 5 agents ont chacun battu TLO (5-0) joueur pro qui n’était toutefois pas spécialisé dans la race qu’il devait jouer (Protoss).
Ces agents ont ensuite poursuit l’entrainement pendant une semaine de plus, soit 400 ans de jeu pour chaque agent au total. Et ils ont battu MaNa, cette fois l’un des 10 meilleurs joueurs Protoss du monde. Une victoire tout aussi écrasante : 5-0 encore ! Dans la vidéo ci-dessous, on peut voir la manière de raisonner de l’IA, et constater qu’elle comprend déjà sa victoire bien avant la fin du match.
Un comportement similaire à l’humain
L’IA a-t-elle gagné grâce à ses avantages de machine ? La vitesse de jeu d’AlphaStar était similaire à celle d’un humain, avec un temps de réaction moyen de 300 ms (pour constater, prendre une décision et agir). Le nombre d’actions par minute était même inférieur. Deux avantages clairs sont toutefois en faveur de la machine : la précision de chaque clic sur chaque unité est parfaite, ce qui a permis une gestion d’unité “incroyable“, selon MaNa. De l’autre, la vision d’AlphaStar était globale, alors que l’humain est limité par la taille de son écran, devant décider où regarder au meilleur moment.
Dernière victoire contre un nouvel agent
Les 9 premiers matchs furent enregistrés mi décembre. Et diffusés en partie hier sur Youtube. Tous les replays sont disponibles sur cette page, chez DeepMind. Une dernière chance pour MaNa s’est jouée hier en direct, contre un tout nouvel agent reparti de zéro pour son entraînement. Selon Google, cet agent est devenu aussi fort que les précédents, alors qu’il était cette fois limité par un champ de vision égal à celui de l’humain dans le jeu (incapable d’observer la totalité de la carte).
C’est justement ce qui a profité à MaNa dans cette partie. Le joueur n’était pourtant pas prévenu des capacités restreintes du nouvel agent. Il a choisi de harceler AlphaStar derrière sa base, ce qui a créé la confusion pour la machine, tout en prenant soin de bien se tenir au courant des faits et geste de l’IA sur le terrain. La victoire fut difficile, mais franche à la fin de la partie. A MaNa de conclure : “J’ai réalisé à quel point mon style de jeu consiste à provoquer l’erreur et exploiter les réactions humaines, donc cette expérience a placé le jeu sous une autre perspective pour moi“. On a hâte de voir les futures confrontations !
“Dernière victoire contre un nouvel agent
Une dernière chance pour MaNa s’est jouée hier en direct, contre un tout nouvel agent reparti de zéro pour son entraînement, cette fois limité par un champ de vision égal à celui de l’humain dans le jeu (incapable d’observer la totalité de la carte).”
On ne peut pas isoler le paramètre “vision du jeu”. Puisque l’IA n’est pas encore entraînée.
Ou alors, le nouvel agent a bien été entraîné pendant des centaines d’heures mais avec un champ de vision restreint ?
Oui l’agent a été entraîné, on ne sait pas combien de temps, mais ça fait un mois depuis les premiers matchs. Apparemment l’agent était aussi fort que les précédents à vision globale)
Agent… Smith !
Oui l’agent du match en live a été entraîné avec la vision restreinte mais n’étais clairement pas aussi fort que les autres agents. Il contrôlait toutes ses unités d’un bloc alors que dans l’autre match contre Mana on l’a vu défendre contre des oracles a la perfection en postant plusieurs petit groupes d’unités dans ses 2 bases