Blog BCS - Between Carbon and Silicon

Le Coup 37 : quand une machine cesse de calculer et commence à comprendre le Go

Deep Blue, AlphaGo, et la question qui dérange : une IA peut-elle vraiment « comprendre » ?

**ABSTRACT**

Ce texte analyse le célèbre Coup 37 joué par AlphaGo contre Lee Sedol en 2016 pour explorer la distinction entre le calcul machine et la compréhension humaine. Contrairement à l'approche par force brute de Deep Blue aux échecs, AlphaGo utilise une architecture hybride capable de développer des représentations internes et une intuition stratégique autonome. L'auteur soutient que la machine satisfait les critères d'une définition fonctionnelle de la compréhension en s'émancipant des modèles humains pour découvrir des vérités mathématiques inédites. L'évolution vers AlphaZero confirme que ces succès ne sont pas des imitations, mais le résultat d'un apprentissage capable de surpasser les traditions culturelles du jeu de Go. Ce basculement technologique provoque ainsi un profond choc identitaire, déplaçant l'autorité cognitive de l'expert humain vers l'algorithme.

PARTIE I : POSER LE PROBLÈME

1. Introduction : un coup qui a changé la question

Le 10 mars 2016, lors de la deuxième partie du match opposant AlphaGo, développé par Google DeepMind, au légendaire champion Lee Sedol à Séoul, quelque chose d'inattendu s'est produit. Au coup numéro 37, AlphaGo, jouant les Noirs, a posé une pierre en P17 (coordonnées standards) ; un coup d'épaule (shoulder hit) sur la cinquième ligne, contre une pierre blanche de Lee Sedol positionnée en quatrième ligne.

Les commentateurs professionnels ont d'abord cru à une erreur, un misclick. Dans la théorie classique du Go (les josekis, ces séquences standards perfectionnées sur trois millénaires de pratique), la troisième ligne est celle du « territoire » (sécurisé), la quatrième ligne celle de « l'influence » (vers le centre). La cinquième ligne ? Elle est traditionnellement considérée comme « trop haute » : elle ne sécurise aucun territoire (l'adversaire peut envahir en dessous) et ne garantit pas une influence suffisante pour justifier la perte de points potentielle. Le Coup 37 semblait violer un principe fondamental du jeu : l'efficience.

Lee Sedol a été si déstabilisé qu'il a quitté la salle et pris près de quinze minutes pour répondre ; une éternité dans un jeu cadencé. Puis la partie a continué. Et le coup s'est révélé d'une précision dévastatrice. AlphaGo avait « vu » quelque chose que les humains ne voyaient pas : le potentiel d'influence globale de cette pierre au centre du plateau surpassait la perte locale de territoire.

Cet épisode a soulevé des questions qui dépassent très largement le cadre ludique. L'histoire de l'intelligence artificielle, depuis ses origines, est hantée par une interrogation : les machines calculent-elles, ou peuvent-elles faire autre chose ? Le jeu de Go, avec sa complexité combinatoire vertigineuse (environ 10170 positions possibles, un nombre excédant celui des atomes dans l'univers observable), résistait depuis des décennies aux approches qui avaient triomphé aux échecs. Et voilà qu'un système non seulement l'emportait, mais jouait des coups qu'aucun humain n'avait imaginés, et qui se révélaient meilleurs que tout ce que la tradition humaine avait produit.

La question que pose le Coup 37 est la suivante : sommes-nous face à une simple optimisation prédictive sur des arbres de recherche (une machine qui « calcule plus de coups d'avance »), ou assistons-nous à l'émergence d'une forme de « création de valeur » inédite, une originalité algorithmique qui s'émancipe du mimétisme humain ?

Pour y répondre, il faut disséquer ce qu'AlphaGo fait vraiment, en quoi cela diffère fondamentalement de ses prédécesseurs, et ce que cela implique pour notre compréhension de l'intelligence, artificielle ou non.

2. Deep Blue vs AlphaGo : la fausse évidence du « même combat »

L'héritage de Deep Blue

Quand on entend « une IA a battu un champion du monde », la première image qui vient à l'esprit est souvent celle de Deep Blue, le système d'IBM qui a vaincu Garry Kasparov aux échecs en 1997. Et la tentation est forte de voir AlphaGo comme un « Deep Blue en plus gros », un ordinateur qui fait la même chose, mais avec plus de puissance.

C'est une erreur fondamentale.

Deep Blue reposait sur une approche de recherche alpha-beta : il explorait l'arbre des coups possibles de manière massive, en élaguant les branches manifestement mauvaises grâce à des heuristiques (des règles de coupure). L'ordre de grandeur classiquement cité : Deep Blue évaluait environ 200 millions de positions par seconde. Sa force provenait principalement de là : beaucoup de nœuds explorés, des coupes efficaces, des heuristiques solides.

Mais il faut mesurer ce que « heuristiques » signifie concrètement. La fonction d'évaluation de Deep Blue, celle qui jugeait si une position était bonne ou mauvaise, reposait sur environ 8 000 paramètres codés à la main. L'équipe IBM avait recruté le grand maître Joel Benjamin comme consultant, et lui ainsi que les ingénieurs avaient formalisé, règle par règle, des concepts stratégiques humains : valeur relative des pièces, sécurité du roi, structure de pions, mobilité, contrôle du centre, paires de fous, colonnes ouvertes, avant-postes de cavaliers, etc. Chaque paramètre traduisait un fragment de savoir d'échecs qu'un humain pouvait identifier, nommer et quantifier.

Deep Blue était donc, en un sens, un système expert classique dopé par la vitesse de calcul : une intelligence humaine (celle des grands maîtres) formalisée en milliers de règles, puis amplifiée par une machine capable d'appliquer ces règles à 200 millions de positions par seconde. La recherche alpha-beta fonctionnait par-dessus cette base de connaissances humaines : on explore l'arbre en profondeur, et quand la fonction d'évaluation (conçue par des humains) dit « cette branche est manifestement mauvaise », on coupe et on passe à la suivante. C'est remarquablement efficace, mais la qualité du système dépend entièrement de la qualité des règles humaines qui le fondent.

AlphaGo : un animal d'une autre espèce

AlphaGo, lui, repose sur une recherche Monte-Carlo (MCTS) pilotée par deux réseaux de neurones profonds : un policy network (qui estime quels coups sont plausibles) et un value network (qui estime directement la valeur d'une position, c'est-à-dire les chances de victoire). L'ordre de grandeur : quelques dizaines de milliers de simulations par seconde pour sa version distribuée (1 202 CPU et 176 GPU).

Notons immédiatement une nuance importante : « positions par seconde » n'est pas une unité parfaitement homogène entre échecs et Go, ni entre alpha-beta et MCTS. Mais l'écart d'ordre de grandeur reste un indicateur précieux.

L'argument décisif

Voici l'argument le plus difficile à esquiver pour quiconque prétendrait qu'AlphaGo est « juste du brute force en plus gros » :

Si AlphaGo était « juste » du brute force, réduire l'exploration en ligne d'un facteur d'environ 3 000 (par rapport à Deep Blue) devrait le rendre dramatiquement plus faible. Or, il est devenu surhumain. Donc il y a une autre source de puissance.

Cette autre source, c'est un modèle interne appris. AlphaGo ne gagne pas parce qu'il explore « plus » ; il gagne parce qu'il explore mieux.

Une analogie pour fixer les idées

Deep Blue ressemble à quelqu'un qui teste un nombre énorme de clés sur une serrure, avec une méthode pour éliminer vite celles qui ne marchent pas. AlphaGo ressemble à quelqu'un qui a appris la forme de la serrure et n'essaie que les clés pertinentes.

Définitions opérationnelles

Pour la clarté de tout ce qui suit, posons deux définitions :

Deep Blue se situe du côté de la force brute (avec des heuristiques, certes, mais largement codées à la main). AlphaGo se situe du côté de la recherche guidée par modèle. Les deux font de la recherche, mais pas du même type.

3. Pourquoi « explorer plus fort » ne suffit pas au Go

Le mur de la complexité : les chiffres qui tuent l'approche brute force

Aux échecs, le facteur de branchement moyen (le nombre de coups légaux dans une position typique) est d'environ 35. Au Go, il est d'environ 250. La profondeur d'une partie de Go est d'environ 150 coups. Ces chiffres semblent anodins. Ils ne le sont pas. L'arbre de recherche croît de manière exponentielle, et la différence entre 35 et 250 n'est pas un écart de grandeur ; c'est un gouffre.

Pour rendre ce gouffre tangible, imaginons une machine aussi rapide que Deep Blue (200 millions de positions évaluées par seconde) et voyons combien de temps il lui faudrait pour explorer tous les coups possibles à une profondeur donnée :

Profondeur (coups d'avance) Échecs (35^n positions) Temps brute force (échecs) Go (250^n positions) Temps brute force (Go)
5 coups ~5,3 × 107 0,3 seconde ~9,8 × 1011 1,4 heure
10 coups ~2,8 × 1015 160 jours ~9,5 × 1023 151 millions d'années
20 coups ~7,6 × 1030 87 000 × l'âge de l'univers ~9,1 × 1047 1022 × l'âge de l'univers
37 coups ~1,4 × 1057 1031 × l'âge de l'univers ~5,3 × 1088 1062 × l'âge de l'univers
60 coups ~4,4 × 1092 1066 × l'âge de l'univers ~7,5 × 10143 10117 × l'âge de l'univers

(Référence : l'âge de l'univers est d'environ 13,8 milliards d'années ; le nombre d'atomes dans l'univers observable est estimé à environ 1080.)

Ce tableau mérite qu'on s'y arrête. Aux échecs, 5 coups d'avance, c'est un tiers de seconde pour Deep Blue : trivial. Au Go, 5 coups d'avance, c'est déjà 1 h 20. Et la suite est cataclysmique : 10 coups d'avance au Go, c'est 151 millions d'années de calcul. À 37 coups d'avance (la profondeur du fameux Coup 37), le nombre de positions à explorer dépasse le nombre d'atomes dans l'univers observable de 8 ordres de grandeur. Aucune machine imaginable, même en mobilisant toute la matière de l'univers pour en faire des processeurs, ne pourrait explorer cet arbre par force brute.

C'est pour cette raison que l'approche qui a fonctionné aux échecs (explorer massivement, élaguer intelligemment) est structurellement inapplicable au Go. La machine ne peut tout simplement pas « calculer tous les coups d'avance ». Il faut une autre stratégie.

Un MCTS classique, même très rapide, ne peut explorer qu'une fraction infinitésimale de cet espace. Et c'est précisément là que le problème devient fondamental.

L'aveuglement des simulations aléatoires

Avant AlphaGo, les meilleurs programmes de Go (comme Crazy Stone ou Pachi) utilisaient principalement le MCTS avec des simulations aléatoires (rollouts). Le principe : pour évaluer une position, on joue la partie au hasard jusqu'à la fin, des milliers de fois, et on regarde la proportion de victoires. Ces programmes plafonnaient au niveau amateur fort (5-6 dan amateur), très loin du niveau professionnel.

Pourquoi ? Parce que les simulations aléatoires sont bruyantes. Au Go, une « bêtise » aléatoire au coup 50 peut transformer une partie gagnée en partie perdue. Le signal « vrai » (est-ce que cette position est bonne ?) est noyé dans la variance des simulations hasardeuses. Plus formellement, la variance de l'estimateur Monte-Carlo basé sur des rollouts aléatoires est très élevée au Go, précisément parce que l'espace est immense et les trajectoires aléatoires s'égarent facilement dans des séquences absurdes.

Un système d'exploration pure est « myope »

Un MCTS pur, sans réseau de neurones, voit très précisément les séquences tactiques courtes (les combats locaux, les captures immédiates), mais échoue à juger la stratégie à long terme parce que l'arbre est trop profond pour être parcouru de manière significative. Il lui manque les « lunettes » qui permettraient de concentrer l'exploration sur les zones pertinentes.

Pourquoi l'approche Deep Blue ne peut pas fonctionner au Go

On pourrait se dire : « Deep Blue a vaincu Kasparov avec 8 000 règles codées main et 200 millions de positions par seconde. Pourquoi ne pas faire la même chose pour le Go, en codant 8 000 ou même 80 000 règles de Go ? » La réponse est que trois obstacles se cumulent, et chacun serait suffisant à lui seul.

Le problème combinatoire est celui qu'on vient de voir dans le tableau : même avec un élagage agressif, le facteur de branchement de 250 rend l'exploration profonde impossible. Aux échecs, l'élagage alpha-beta permet de « gagner » efficacement quelques coups de profondeur supplémentaires parce que le facteur de branchement de 35 reste gérable. Au Go, élaguer même 90 % des branches laisse un facteur de 25, ce qui reste explosif. La recherche alpha-beta amplifie la connaissance humaine ; mais quand l'espace est trop vaste, il n'y a tout simplement pas assez de branches à couper pour rendre le problème traitable.

Le problème de la formalisation est plus profond encore. Aux échecs, les concepts stratégiques sont relativement formalisables : la valeur matérielle (une tour vaut environ cinq pions), la sécurité du roi, les cases faibles, les colonnes ouvertes, tout cela se traduit raisonnablement en règles numériques qu'un ingénieur peut coder. C'est ce que l'équipe de Deep Blue a fait, paramètre par paramètre, avec l'aide de grands maîtres. Au Go, les concepts clés (l'influence, l'« épaisseur », l'aji ou potentiel latent, l'équilibre entre territoire et influence, la vie et la mort des groupes) sont extrêmement difficiles à encoder en règles explicites. Les joueurs de Go professionnels eux-mêmes peinent souvent à verbaliser pourquoi une position est bonne. Un joueur 9 dan « sent » l'influence d'un groupe de pierres ; demandez-lui de la quantifier en règles numériques, il ne peut pas. Ce n'est pas un savoir qu'on peut aisément décomposer en 8 000 paramètres, parce qu'il est, par nature, holistique et implicite.

Le problème de la globalité achève de fermer la porte. Aux échecs, une position peut raisonnablement être décomposée en sous-évaluations locales qu'on additionne : structure de pions + sécurité du roi + activité des pièces + contrôle du centre... La somme fournit une approximation utile. Au Go, l'évaluation est fondamentalement globale : la valeur d'une pierre sur un coin du plateau dépend de toutes les autres pierres du plateau, et des interactions lointaines entre groupes distants de dix, vingt, trente intersections. Un « bon » coup dans un coin peut devenir catastrophique à cause d'une faiblesse dans un autre coin, qui elle-même dépend d'une course de libertés au centre. Cette interdépendance globale rend la décomposition additive (la recette de Deep Blue) fondamentalement inadaptée.

Des équipes ont d'ailleurs tenté l'approche « règles codées main » pour le Go, bien avant l'ère du Deep Learning. Les programmes de Go classiques des années 1990 et 2000, fondés sur des heuristiques expertes, plafonnaient à un niveau de jeu très faible, souvent inférieur au niveau amateur intermédiaire. L'arrivée du MCTS (vers 2006-2008) avait permis un bond jusqu'au niveau amateur fort (5-6 dan amateur), mais le mur du niveau professionnel restait infranchissable. Il a fallu le Deep Learning pour le franchir.

C'est exactement ce que le Deep Learning a apporté : la capacité d'apprendre ces évaluations globales directement à partir de l'expérience, sans qu'un humain ait besoin de les formaliser explicitement.

Cette trajectoire (de l'expertise humaine codée main vers l'apprentissage autonome par la machine) illustre de manière presque pure ce que le chercheur Rich Sutton a nommé la Bitter Lesson (la « leçon amère ») en 2019 : historiquement, dans tous les domaines de l'IA, les approches qui s'appuient sur le calcul massif et l'apprentissage général finissent toujours par battre celles qui tentent d'encoder la connaissance humaine. C'est « amer » parce que les chercheurs investissent des années à formaliser leur expertise dans des systèmes à base de règles, et à chaque fois, une méthode plus brute mais plus générale finit par les surpasser. Deep Blue, avec ses 8 000 règles codées par des grands maîtres, représente l'ancienne école. AlphaGo Zero, qui part de zéro et dépasse tout le monde, en est la démonstration la plus nette.


PARTIE II : COMMENT ALPHAGO FONCTIONNE VRAIMENT

4. L'architecture hybride : intuition et raisonnement

L'architecture d'AlphaGo (dans sa version « Lee », celle qui a affronté Lee Sedol) ne repose pas sur un algorithme monolithique. C'est une orchestration complexe de plusieurs réseaux de neurones profonds et d'un algorithme de recherche probabiliste. Cette structure tente de reproduire, de manière synthétique, la dichotomie humaine entre l'intuition (reconnaissance de motifs immédiate) et la réflexion (calcul séquentiel, vérification).

Le cœur « intuitif » d'AlphaGo est constitué de réseaux de neurones convolutifs (CNN) profonds. Ces réseaux traitent le plateau de Go comme une image de 19x19 pixels, mais avec une profondeur de 48 canaux de caractéristiques (feature planes), incluant non seulement la position des pierres (noires et blanches), mais aussi des informations tactiques comme les libertés, les échelles (ladders), et l'historique des coups (ko).

4.1. Le réseau de politique (Policy Network) : réduire la largeur

Dans une position donnée au Go, il y a en moyenne 250 coups légaux possibles. Un joueur humain expert n'en considère sérieusement que quelques-uns. Le réseau de politique imite cette sélectivité : son rôle est de réduire la largeur de la recherche.

Imaginez que vous cherchez un restaurant dans une ville inconnue. Au lieu de visiter les 500 restaurants un par un (brute force), vous demandez à un habitant « quels sont les trois ou quatre endroits qui valent le coup ? ». Le réseau de politique joue ce rôle d'habitant qui connaît la ville.

Pour le lecteur technique : le réseau de politique fournit une distribution de probabilité a priori P(a|s), pour un état s et une action a, sur chaque coup possible, concentrant la masse de probabilité sur une petite fraction de coups plausibles. L'effet géométrique est une réduction drastique du branching factor effectif. Au lieu d'explorer 250 branches à chaque niveau, le système concentre ses ressources sur les 10 ou 20 coups les plus prometteurs.

AlphaGo Lee utilise en réalité deux réseaux de politique distincts :

Cette distinction est capitale : le réseau SL encode « ce que les humains jouent », le réseau RL encode « ce qui fait gagner ». Les deux ne coïncident pas toujours.

4.2. Le réseau de valeur (Value Network) : réduire la profondeur

Le deuxième problème est la profondeur. Il est impossible de simuler chaque partie jusqu'à son terme dans un temps raisonnable. Le réseau de valeur s'attaque à ce problème : il apprend à estimer l'espérance de gain (la probabilité de victoire) directement à partir d'une position statique, sans aucune lecture tactique, sans dérouler l'avenir.

C'est comme un médecin expérimenté qui, en voyant un patient entrer dans son cabinet, a déjà une intuition du diagnostic avant même d'avoir fait les examens. Il ne peut pas tout examiner (ce serait trop long), mais son expérience lui donne une estimation fiable.

Pour le lecteur technique : le réseau de valeur V(s) fournit une estimation scalaire (entre -1 et +1) de la probabilité de victoire depuis une position donnée. Il remplace une partie du « calcul profond » par une estimation apprise, donnant une surface d'évaluation (une fonction « lisse » au sens pratique) qui rend la recherche bien plus efficace.

L'entraînement de ce réseau est un défi de régression majeur. Utiliser des positions successives d'une même partie créerait une corrélation trop forte (overfitting), car les positions ne changent que d'une pierre à la fois entre deux coups. Pour contourner cela, DeepMind a généré un ensemble de données de 30 millions de positions distinctes, chacune issue d'une partie de self-play différente, garantissant une diversité statistique maximale pour la généralisation de l'évaluation.

Résultat empirique décisif (études d'ablation) : les chercheurs de DeepMind ont testé AlphaGo en désactivant le réseau de valeur (on ne se fie qu'aux rollouts) ou en désactivant les rollouts (on ne se fie qu'au réseau de valeur). Résultat : le réseau de valeur seul performe presque aussi bien que les rollouts seuls, mais avec 15 000 fois moins de calculs. La combinaison des deux est ce qui permet de dépasser le niveau humain : le réseau de valeur donne la « direction stratégique » que les rollouts seuls ne peuvent pas voir à cause de l'horizon de calcul trop lointain.

4.3. Le MCTS guidé (APV-MCTS) : le moteur de raisonnement

Si les réseaux de neurones fournissent l'intuition, le MCTS fournit le raisonnement logique et la vérification tactique. AlphaGo n'utilise pas le MCTS classique, mais une variante asynchrone guidée par les réseaux de politique et de valeur (APV-MCTS, pour Asynchronous Policy and Value MCTS).

L'algorithme procède en quatre phases cycliques pour chaque simulation :

  1. Sélection : à partir de la racine, l'algorithme traverse l'arbre en choisissant les branches qui maximisent une fonction de score (voir section 5.1).
  2. Expansion : lorsqu'un nœud feuille est atteint, le réseau de politique SL est appelé pour générer les probabilités a priori des coups suivants.
  3. Évaluation : la position de la feuille est évaluée de deux manières simultanées, par le réseau de valeur (estimation apprise) et par une simulation rapide (rollout) jusqu'à la fin de la partie.
  4. Rétropropagation : les résultats sont remontés pour mettre à jour les statistiques des nœuds traversés.

Le résultat combiné de ces mécanismes transforme la nature même du MCTS. Ce n'est plus « tirer au hasard dans l'arbre » ; c'est allouer le budget de recherche là où il a une chance de changer la décision.

Tableau comparatif des composants :

Composant Type de sortie Rôle principal Force Faiblesse
SL Policy Network Vecteur de probabilités Guider la sélection (prior) Imite la diversité humaine Plafonné par la compétence humaine
RL Policy Network Vecteur de probabilités Générer des données pour le Value Net Très fort (surhumain) Manque de diversité (faisceau étroit)
Value Network Scalaire Évaluer la position statique Intuition globale précise Peut rater des subtilités tactiques locales
Rollout Policy Simulation rapide Évaluer la fin de partie Rapide (~quelques microsecondes/coup) Moins précis stratégiquement

5. La mécanique de décision : comment l'intuition et le calcul se corrigent mutuellement

5.1. La formule PUCT : l'équilibre exploration-exploitation

La sélection des coups dans l'arbre est régie par une variante de la formule PUCT (Predictor Upper Confidence Bound applied to Trees). Pour un état s et une action a, l'algorithme choisit le coup qui maximise une fonction composée de deux termes :

L'implication cruciale de cette formule est la suivante : au début de la recherche, quand le nombre de visites N est petit, le terme d'exploration U domine. L'algorithme suit alors aveuglément les « conseils » du réseau de politique, c'est-à-dire l'intuition humaine encodée. Cependant, à mesure que le nombre de simulations augmente (N grandit), le terme U diminue (puisque N est au dénominateur). Le terme Q, basé sur l'évaluation objective de la position (réseau de valeur + rollouts), devient prépondérant.

AlphaGo commence par écouter les experts humains (« d'habitude, on joue plutôt ici »), puis vérifie par lui-même en simulant les conséquences, et peut changer d'avis si les résultats contredisent l'intuition initiale.

Cela signifie qu'AlphaGo est conçu pour commencer par imiter les humains, mais pour s'en écarter progressivement si l'évaluation objective contredit l'intuition humaine. C'est un mécanisme de « désapprentissage dynamique des préjugés humains » en temps réel. L'architecture elle-même rend possible la découverte de coups que les humains n'auraient jamais envisagés.

5.2. Le paramètre de mélange lambda : la synthèse des vérités

L'évaluation d'un nœud feuille n'est pas confiée à un seul oracle. AlphaGo utilise une moyenne pondérée entre l'opinion de son réseau de neurones et la réalité empirique d'une simulation rapide. Le paramètre lambda contrôle cet équilibre :

AlphaGo Lee utilisait un mélange intermédiaire (environ 0,5), reconnaissant que ni l'intuition neuronale ni la simulation rapide n'étaient parfaites isolément. Le réseau de valeur excelle dans l'évaluation globale et stratégique, mais peut manquer des subtilités tactiques locales. Les rollouts sont tactiquement robustes (ils « jouent » vraiment la partie jusqu'au bout) mais peuvent se tromper stratégiquement à cause du bruit. Leur combinaison réduit la variance de l'erreur d'évaluation, en couvrant les angles morts de chaque méthode.

Encart pédagogique : l'expédition en territoire inconnu

Les sections précédentes sont techniques. Pour saisir comment ces mécanismes interagissent concrètement, et surtout pourquoi cette interaction peut produire un coup que personne n'avait imaginé, une analogie détaillée est utile.

Le décor. Une équipe d'exploration arrive au pied d'une chaîne de montagnes inconnue. Leur mission : trouver le meilleur passage vers le sommet. Le terrain est immense, les vallées se ramifient dans toutes les directions (c'est l'arbre de recherche au Go, avec ses 250 embranchements à chaque carrefour), et l'équipe n'a ni le temps ni les ressources pour explorer chaque sentier jusqu'au bout (on a vu avec le tableau que c'est physiquement impossible).

Les personnages.

Le Guide est le SL Policy Network, le réseau de politique entraîné par apprentissage supervisé. C'est celui qui a étudié des millions de parties humaines : il sait ce que les meilleurs joueurs font dans chaque situation, et il prédit le prochain coup d'un humain fort. Quand l'équipe arrive à un carrefour, il dit : « Par ici, c'est le chemin habituel, 40 % des joueurs passent par là. Cette autre piste, 25 %. Celle-ci, 15 %. Et il reste un peu de probabilité dispersée sur une dizaine d'autres sentiers, y compris des chemins que presque personne ne prend. » Son savoir est précieux (il élimine d'emblée l'immense majorité des sentiers absurdes), mais il est prisonnier de la tradition : il ne recommande que ce que les humains ont déjà joué. Il ne peut pas voir au-delà de ce que l'humanité a exploré. En revanche, parce qu'il a appris de milliers de joueurs différents, chacun avec ses habitudes et ses audaces, il connaît une grande variété de chemins possibles. Cette ouverture d'esprit sera décisive.

L'Explorateur Solitaire est le RL Policy Network, le réseau de politique entraîné par renforcement. C'est un ancien élève du Guide : il a commencé avec exactement les mêmes connaissances, la même carte mentale héritée des parties humaines. Puis il est parti seul. Pendant des mois (des millions de parties contre son propre reflet), il a arpenté des territoires que les humains n'ont jamais cartographiés, découvrant des passages inédits, affinant ses itinéraires, devenant plus fort que le Guide (il le bat dans plus de 80 % de leurs confrontations). Mais cette force a un prix. À force de n'écouter que lui-même, l'Explorateur Solitaire est devenu trop sûr de ses propres chemins. À un carrefour, là où le Guide voit dix sentiers possibles (parce qu'il se souvient de dix joueurs différents qui les ont empruntés), l'Explorateur n'en voit plus que deux ou trois : ceux qu'il connaît, ceux qu'il a optimisés, ceux qui mènent à sa victoire. Les autres, il les ignore. C'est pour cette raison qu'il ne guide pas l'expédition. Un guide trop sûr de lui ferme des portes que l'équipe aurait besoin d'ouvrir. Le Guide, moins fort mais plus ouvert, donne de meilleurs résultats sur le terrain parce qu'il laisse le Chef d'expédition envisager des options que l'Explorateur aurait écartées d'office.

Mais l'Explorateur Solitaire n'a pas exploré pour rien. Avant de se retirer, il a ramené des carnets de route : des millions de relevés de positions, avec pour chacune le verdict final (victoire ou défaite). Ces carnets sont le matériau brut à partir duquel un autre membre de l'équipe va construire quelque chose d'essentiel.

Le Cartographe est le Value Network, le réseau de valeur. Il n'a jamais parcouru le terrain lui-même. Son expertise vient d'ailleurs : il a étudié les carnets de l'Explorateur Solitaire, ces millions de relevés rapportés des territoires inconnus, et il en a dressé une carte. Pas une carte des chemins (ça, c'est le travail du Guide), mais une carte des altitudes, des probabilités : pour chaque zone du terrain, il sait dire « cette position a 73 % de chances de mener au sommet » ou « celle-ci, 30 %, c'est probablement un cul-de-sac ». Sur l'expédition, il ne marche pas ; il déplie sa carte, pointe du doigt et donne son verdict. Son jugement est synthétique (il voit les grandes tendances là où les autres ne voient qu'un sentier à la fois) mais indirect : il dépend entièrement de la qualité des explorations de l'Explorateur Solitaire. Sans celui-ci, la carte n'existerait pas.

Les Éclaireurs sont les simulations Monte-Carlo (les rollouts), pilotées par un réseau rapide et léger (le Fast Rollout Policy). Ce sont les membres de l'équipe qui partent physiquement explorer un sentier. Ils marchent jusqu'au bout (ou aussi loin que possible) et reviennent avec un rapport brut : « praticable » ou « impasse ». C'est la composante la plus « brute force » du système : on envoie des gens sur le terrain, ils marchent, ils voient ce qui se passe. Leur retour d'information est concret et ancré dans la réalité, mais il est coûteux en temps, et parfois trompeur (un éclaireur peut glisser dans un ravin par malchance et rapporter « impasse » alors que le sentier était bon ; c'est le problème du bruit statistique des rollouts aléatoires).

Le Chef d'expédition est la formule PUCT, le mécanisme de décision qui fait la synthèse. C'est lui qui décide où envoyer les éclaireurs, en combinant les avis du Guide, du Cartographe, et les rapports de terrain des éclaireurs eux-mêmes. Sa règle est la suivante :

La scène du Coup 37.

L'équipe arrive à un carrefour crucial. Le Guide, fort de sa connaissance de toutes les expéditions humaines passées, examine les pistes et donne son verdict : « Trois chemins valables, que les grands maîtres empruntent régulièrement. Ce quatrième sentier, celui qui monte directement vers la crête par le versant nord ? Personne ne le prend. Une chance sur dix mille que ce soit le bon. Oubliez-le. »

Les éclaireurs partent sur les trois sentiers recommandés. Ils reviennent, les uns après les autres, avec des rapports décevants : éboulement par ici, marécage par là, pente trop raide ailleurs. Les valeurs Q des chemins classiques baissent.

Le Chef d'expédition, fidèle à sa règle, constate que les options standard s'épuisent. Il décide d'allouer une partie de ses ressources au sentier que personne ne prend. Il envoie un éclaireur sur le versant nord. Pendant ce temps, le Cartographe déplie sa carte, examine le secteur, et dit : « Attendez. D'après les relevés de l'Explorateur Solitaire, ce type de relief a un profil que je connais. Il a exploré seul des milliers de paysages que les humains n'ont jamais vus, et dans mes cartes, cette topographie est associée à un passage. Ce sentier ne monte pas vers un cul-de-sac. Il rejoint un col que personne ne connaît, et de l'autre côté, c'est dégagé. Ma carte indique une probabilité élevée de réussite. »

L'éclaireur revient : le sentier est praticable. Le Cartographe confirme : la carte est formelle. Le Chef d'expédition fait la synthèse : le Guide dit non (prior quasi nul), mais le Cartographe dit oui et les éclaireurs le confirment (Q élevé). C'est le Chef, la formule PUCT, qui tranche : on passe par le versant nord. C'est lui qui a rendu le Coup 37 possible, parce qu'il est conçu pour permettre à l'évaluation objective de surpasser le préjugé hérité.

La morale. Les expéditions qui suivent le Guide sans jamais vérifier (un pur système à base de données humaines) n'auraient jamais trouvé ce passage. Celles qui envoient des éclaireurs au hasard sans guide et sans cartographe (un MCTS pur, sans réseaux de neurones) se seraient perdues dans l'immensité du terrain. Et si c'était l'Explorateur Solitaire qui guidait à la place du Guide, l'équipe serait plus forte en moyenne mais n'aurait jamais envisagé le versant nord, parce que l'Explorateur, trop sûr de ses propres chemins, l'aurait écarté d'emblée. Ce qui a permis la découverte, c'est la combinaison des quatre, orchestrée par un Chef qui sait quand cesser d'écouter la tradition et commencer à faire confiance à la carte ; une carte qui n'existerait pas sans les explorations solitaires d'un cinquième membre que personne ne voit sur le terrain, mais dont le travail a rendu tout le reste possible.

PARTIE III : CE QUI SE PASSE DANS LA « TÊTE » D'ALPHAGO

6. Compression, oui ; mais compression de quoi ?

L'objection naturelle : « c'est juste une grosse base de données »

Un lecteur raisonnable, arrivé à ce point, pourrait objecter : « D'accord, AlphaGo est plus malin que Deep Blue. Mais au fond, ses réseaux de neurones ont ingurgité des millions de parties et ils ont mémorisé les bonnes réponses. Quand il joue, il se souvient. C'est un cache sophistiqué, pas une intelligence. »

Cette objection est naturelle. Elle est même partiellement vraie : un réseau de neurones compresse effectivement l'information contenue dans ses données d'entraînement. Un réseau entraîné sur 30 millions de parties contient bien, d'une certaine manière, un « résumé » de ces parties. Nier cela serait malhonnête.

Mais l'objection ne résiste pas à l'examen, et la comprendre vraiment exige de poser une question plus précise : compression de quoi, exactement ?

Premier niveau de réfutation : le réseau est trop petit pour être un cache

Imaginez qu'on vous demande de résumer toute la littérature française en un carnet de 200 pages. Vous ne pouvez pas recopier les livres ; il n'y a pas la place. Vous êtes obligé d'extraire des principes : les règles de la narration, les types de personnages, les structures dramatiques. Votre carnet ne contient plus les livres ; il contient quelque chose de plus profond. C'est ce que fait le réseau de neurones.

Cela prouve que le réseau a compressé, oui. Mais cela ne dit pas encore ce qu'il a compressé.

Pour le lecteur technique : le réseau de valeur d'AlphaGo possède quelques millions de paramètres. Chaque position d'entrée est un objet de haute dimension (19 × 19 × 48 feature planes, soit plus de 17 000 valeurs). L'espace des positions possibles au Go est de l'ordre de 10170. Stocker ne serait-ce qu'une fraction infime de ces positions sous forme de paires (position → évaluation) dépasserait de très loin la capacité du réseau. Il est physiquement trop petit pour être un dictionnaire de réponses.

L'objection sophistiquée : « il a mémorisé ses propres parties de self-play »

Un lecteur plus attentif pourrait alors affiner : « Le policy network SL s'occupe des parties humaines. Le value network a été entraîné sur 30 millions de parties de self-play. Peut-être que chacun a mémorisé (sous forme compressée) son propre jeu de données. Ce sont deux caches complémentaires qui couvrent chacun leur territoire. »

C'est une objection plus sérieuse. Et c'est ici qu'un fait empirique décisif intervient.

La preuve par convergence : AlphaGo Zero

En 2017, DeepMind a publié AlphaGo Zero. Ce système diffère radicalement d'AlphaGo Lee :

Or, AlphaGo Zero converge vers les mêmes conclusions stratégiques qu'AlphaGo Lee : il redécouvre les josekis classiques (les séquences perfectionnées par des siècles de pratique humaine), il redécouvre les mêmes types de coups « alien » comme le Coup 37, et il dépasse largement AlphaGo Lee en force de jeu.

Pourquoi cet argument est décisif : si les réseaux d'AlphaGo Lee avaient simplement mémorisé (même sous forme compressée) les 30 millions de parties de leur entraînement, alors AlphaGo Zero, entraîné sur des parties totalement différentes, ne devrait pas converger vers les mêmes évaluations. Deux caches alimentés par des données différentes donnent des contenus différents. Or les deux systèmes convergent. La seule explication est que ce qui a été extrait est indépendant des données d'entraînement spécifiques. Ce qui a été compressé, ce ne sont pas les parties ; c'est quelque chose qui est commun à toutes les parties possibles du Go.

C'est comme si deux étudiants, qui n'ont lu aucun des mêmes livres, passaient le même examen et donnaient les mêmes réponses. Si chacun avait juste mémorisé ses propres livres, leurs réponses seraient différentes. S'ils donnent les mêmes réponses, c'est qu'ils ont compris les mêmes principes sous-jacents, indépendamment du matériel qu'ils ont étudié.

Compression de données vs compression de structure

On arrive alors à la distinction fondamentale.

Il existe deux types de compression. La compression de données réduit le volume sans rien comprendre au contenu : un fichier ZIP est plus petit que l'original, mais il ne « sait » rien de ce qu'il contient. La compression de structure extrait les régularités, les lois, les principes sous-jacents : une formule physique (F = ma) « compresse » des milliards d'observations en trois symboles, mais elle fait bien plus que les stocker ; elle permet de prédire des situations jamais observées.

L'argument de convergence montre que les réseaux d'AlphaGo réalisent une compression de structure, pas de données. Ils ont extrait quelque chose qui appartient au jeu de Go lui-même, pas aux parties spécifiques qu'ils ont vues.

Mais dire « compression de structure » ou « principes sous-jacents du Go », c'est encore assez vague. Qu'est-ce que c'est, concrètement, ce que le réseau a extrait ? Qu'est-ce qui est « dans » ces millions de paramètres ? C'est la question des représentations internes, et c'est l'objet de la section suivante.

7. AlphaGo construit-il des représentations internes ?

Ce qui est « dans » les paramètres : des détecteurs

La section précédente a montré que les réseaux d'AlphaGo ont extrait la structure du jeu de Go, pas les parties elles-mêmes. Mais concrètement, qu'est-ce que ça veut dire ? Qu'est-ce qui est « dans » ces millions de paramètres ?

La réponse la plus directe : ce sont des détecteurs. Des millions de petits détecteurs qui, ensemble, « voient » des choses dans une position de Go. Pas les pierres elles-mêmes (ça, c'est l'entrée brute, les 19 × 19 intersections avec leurs pierres noires, blanches ou vides). Ce que les détecteurs voient, ce sont des propriétés invisibles à l'œil nu : des rapports de force entre groupes, des potentiels d'influence, des fragilités, des opportunités.

En termes techniques, on appelle ça des représentations internes ou variables latentes : des quantités que personne n'a demandé au réseau de calculer, mais qu'il a construites de lui-même parce qu'elles sont utiles pour prédire qui va gagner.

Pensez à la manière dont vous regardez un visage humain. Votre rétine reçoit des millions de points colorés (l'équivalent des pierres sur le plateau). Mais vous ne « voyez » pas des points colorés ; vous voyez instantanément une émotion, un âge, une intention. Personne ne vous a programmé une règle « si le pixel 347 est sombre, alors c'est de la tristesse ». Votre cortex visuel a construit, par l'expérience, des détecteurs intermédiaires (contours, formes, traits du visage) qui se combinent automatiquement pour produire des concepts de haut niveau. Le réseau d'AlphaGo fait exactement la même chose avec un plateau de Go : à partir de pierres brutes, il « voit » de l'influence, du danger, du potentiel.

Comment le réseau construit ces détecteurs : la hiérarchie des couches

Le réseau d'AlphaGo est un réseau convolutif profond (CNN) à 13 couches. Le mot « profond » est la clé : chaque couche construit ses détecteurs en combinant les détecteurs de la couche précédente, créant une hiérarchie de concepts de plus en plus abstraits.

Les premières couches détectent des patterns locaux simples : une pierre encerclée, un groupe avec peu de libertés, deux pierres connectées en diagonale (un « bamboo joint »), une forme élémentaire comme la « gueule du tigre » (tiger's mouth). Ces détecteurs ne voient qu'un petit voisinage du plateau (quelques intersections autour de chaque point).

Les couches intermédiaires combinent ces patterns locaux en concepts plus abstraits, qui couvrent des zones plus larges : un groupe vivant (qui possède deux yeux), une zone d'influence (un ensemble de pierres qui « rayonne » vers le centre), une course de libertés entre deux groupes distants, une faiblesse structurelle exploitable. Ces concepts n'existent nulle part dans l'entrée brute ; ils émergent de la combinaison des détecteurs simples.

Les couches profondes synthétisent tout cela en jugements stratégiques globaux : cette position est favorable, ce territoire est tenable, ce secteur est menacé, le rapport de force global penche vers les Noirs. C'est ce jugement de synthèse que le réseau de valeur produit en sortie (un scalaire entre -1 et +1), et c'est aussi ce qui permet au réseau de politique de concentrer la probabilité sur les quelques coups qui comptent vraiment.

Prolongeons l'analogie de la vision. Première couche : vous voyez des lignes et des contrastes. Couche intermédiaire : vous voyez un nez, des yeux, une bouche. Couche profonde : vous voyez un visage triste. C'est la même progression au Go. Première couche : le réseau voit des pierres adjacentes. Couche intermédiaire : il voit un groupe fragile. Couche profonde : il voit une position perdante. Chaque niveau « comprend » quelque chose que le niveau précédent ne pouvait pas voir, parce qu'il combine les informations d'en dessous.

Pour le lecteur technique : c'est la hiérarchie compositionnelle caractéristique des CNN profonds, le même principe que dans la reconnaissance d'images (pixels → contours → formes → objets → scènes), appliqué ici à un domaine stratégique. La différence avec la vision classique est que les « objets » détectés ne sont pas des chats ou des voitures, mais des concepts de Go : vie, mort, influence, potentiel, urgence. Et ces concepts n'ont été définis nulle part dans le code ; ils ont émergé de l'entraînement.

Ce qu'on observe vraiment dans le réseau : des concepts émergents

Ce n'est pas de la spéculation. Des chercheurs ont visualisé les activations de neurones individuels dans les couches intermédiaires de réseaux entraînés au Go, et ils ont constaté que certains neurones s'activent spécifiquement pour des concepts de Go identifiables. Tel neurone s'active quand un groupe est en atari (menace de capture immédiate). Tel autre s'active quand une échelle (ladder) est en cours. Tel autre encore détecte les yeux (les espaces vitaux qui garantissent la survie d'un groupe).

Le parallèle avec Deep Blue est ici saisissant. Les 8 000 règles de Deep Blue avaient été codées à la main par des grands maîtres et des ingénieurs : chaque concept (valeur des pièces, sécurité du roi, colonnes ouvertes...) avait été identifié, nommé, quantifié par un humain. Les concepts d'AlphaGo, eux, sont des concepts émergents auto-organisés : personne n'a dit au réseau « détecte les yeux » ou « évalue l'influence ». Il a découvert par lui-même que ces variables étaient pertinentes pour gagner, et il les a construites dans ses couches cachées.

C'est la différence entre un dictionnaire de concepts rédigé par des experts (Deep Blue) et un système qui invente ses propres concepts à partir de l'expérience brute (AlphaGo). Le second peut découvrir des concepts que les experts n'avaient jamais identifiés, parce qu'il n'est pas limité par ce qu'un humain sait nommer.

Retour au Coup 37 : ce que le réseau a « vu »

On peut maintenant comprendre mécaniquement comment le Coup 37 a été évalué positivement par le réseau de valeur, alors que le réseau de politique (entraîné sur les parties humaines) le rejetait.

Quand le value network a « regardé » la position résultant du Coup 37, ses couches profondes ont fait ce qu'elles font toujours : elles ont activé leurs détecteurs. Les détecteurs d'influence globale se sont activés fortement (cette pierre en 5e ligne projette une influence massive vers le centre). Les détecteurs de fragilité territoriale de l'adversaire se sont activés (les Blancs ne peuvent pas envahir facilement en dessous sans s'exposer). La synthèse des couches profondes a produit une évaluation positive : cette position est favorable pour les Noirs.

Le réseau n'a pas « cherché dans sa mémoire » une position similaire. Il a appliqué ses détecteurs (ses représentations internes, forgées par des millions de parties de self-play) à une position qu'il n'avait probablement jamais vue exactement, et il en a extrait un jugement. C'est exactement ce qu'un joueur humain expert fait quand il « sent » qu'une position est bonne sans pouvoir l'expliquer : son cortex active des détecteurs de patterns acquis par des années de pratique, et la synthèse produit une intuition.

Sauf que le réseau d'AlphaGo possède des détecteurs plus fins et plus fiables que ceux de n'importe quel humain, parce qu'il a été forgé par une expérience incomparablement plus vaste (des millions de parties, contre quelques dizaines de milliers pour le joueur le plus assidu).

Transition : si le réseau « voit » des concepts, est-ce qu'il « comprend » ?

On arrive à une question inévitable. Si AlphaGo possède des représentations internes hiérarchiques qui encodent la structure du jeu, qui lui permettent de généraliser à des positions inédites, et qui guident sa recherche vers les zones pertinentes ; s'il « voit » de l'influence, des groupes vivants, des fragilités ; alors peut-on dire qu'il comprend le Go ?

La réponse dépend entièrement de ce qu'on met dans le mot « comprendre ». Et pour y répondre honnêtement, il faut d'abord se demander ce que signifie « comprendre le Go » pour un humain. Parce que la compréhension humaine du Go, elle aussi, repose sur des détecteurs, des patterns, des représentations construites par l'expérience ; et elle aussi est largement implicite, non verbalisable, et difficile à distinguer, fonctionnellement, de ce que fait le réseau. C'est l'objet de la section suivante.

8. « Comprendre » : définition opératoire, sans métaphysique

La méthode : factoriser la compréhension en ses composants minimaux

Le mot « comprendre » est miné. Selon qu'on y met de la conscience, de l'intentionnalité, de la phénoménologie, ou simplement de la compétence fonctionnelle, on arrive à des conclusions opposées. On pourrait débattre des siècles sans converger.

Pour sortir de cette impasse, adoptons une méthode d'ingénieur : la factorisation minimale. Au lieu de demander « qu'est-ce que comprendre ? » (question philosophique sans fond), demandons : « quel est l'ensemble minimum de capacités fonctionnelles nécessaires et suffisantes pour jouer au Go à un niveau surhumain ? » Autrement dit : de quoi a-t-on besoin, au minimum, et rien de plus ?

Cette factorisation produit trois critères, et seulement trois :

Un agent comprend le Go s'il possède des représentations internes qui encodent de la structure du jeu et permettent de (1) généraliser à des positions nouvelles, (2) décider de coups robustes sous contrainte de calcul et de temps, et (3) guider son calcul vers les zones pertinentes.

Tout le reste (la conscience de soi, le langage, la capacité à expliquer ses coups, le plaisir esthétique, l'émotion) est peut-être présent chez certains agents qui comprennent le Go (les humains, par exemple), mais ce n'est pas nécessaire pour y jouer de manière surhumaine. Ça peut exister en plus, mais ça ne fait pas partie de la factorisation minimale.

La question devient alors purement empirique : qui satisfait ces trois critères, et comment ?

Comment un humain satisfait ces critères : le chunking et les détecteurs cérébraux

Un joueur de Go fort n'explore pas l'arbre complet (c'est évidemment impossible, on l'a vu). Comment fait-il alors pour jouer à un haut niveau ? Il a construit, par des milliers d'heures de pratique, des détecteurs cérébraux qui lui permettent de « voir » le plateau autrement qu'un débutant.

L'expérience fondatrice : dans les années 1970, les psychologues Chase et Simon ont montré, aux échecs, que la différence entre un maître et un débutant ne réside pas dans la capacité de calcul brut (le maître ne calcule pas beaucoup plus de coups d'avance). Elle réside dans la perception : le maître voit le plateau en « chunks » (des groupes significatifs de pièces), là où le débutant voit des pièces individuelles. Un grand maître, face à une position d'échecs, ne voit pas 32 pièces sur 64 cases ; il voit 5 ou 6 structures signifiantes. Sa mémoire ne stocke pas des positions ; elle stocke des patterns.

Au Go, le phénomène est identique, et encore plus marqué. Un débutant regarde un plateau de 19 × 19 et voit 361 intersections avec des pierres noires et blanches ; c'est du bruit, il ne comprend rien. Un joueur 9 dan regarde le même plateau et « voit » instantanément des groupes vivants, des zones d'influence, des faiblesses exploitables, des urgences. La différence entre les deux n'est pas l'intelligence brute ; c'est que le cerveau du 9 dan a construit, par la pratique, des détecteurs spécialisés.

Le joueur humain expert opère donc une compression en deux étages :

A) Compression « positionnelle » (structure du jeu). Le joueur possède des représentations internes (souvent implicites, non verbalisables) concernant les groupes et leur connexité, les libertés et les situations d'atari, la vie et la mort (yeux, stabilité), les ko et les menaces pertinentes, l'influence et le territoire probable, les urgences locales versus globales, les patterns tactiques (échelles, ladders, etc.). Ce sont des objets « structurants » : ils résument une quantité énorme d'états possibles en quelques variables pertinentes. Ce sont, fonctionnellement, les mêmes « détecteurs » que ceux que les couches intermédiaires et profondes du réseau d'AlphaGo construisent (section 7).

B) Méta-contrôle (allocation du calcul et de l'attention). Un joueur apprend aussi comment réfléchir selon le contexte : quand lire profondément (calcul séquentiel) versus quand jouer « sur intuition » (reconnaissance de pattern), où investir le temps de réflexion, quand jouer robuste versus quand prendre des risques. On peut voir cela comme un réglage dynamique de l'exploration : pas un bruit gratuit, mais une modulation de la variabilité de recherche selon l'incertitude et l'enjeu (un « bruit dirigé »). C'est, fonctionnellement, le rôle que joue la formule PUCT chez AlphaGo : allouer les ressources de calcul là où elles comptent.

Un point crucial : ces détecteurs humains sont, pour l'essentiel, non verbalisables. Demandez à un joueur professionnel pourquoi il « sent » que telle position est bonne, il dira souvent « je ne sais pas expliquer, c'est l'intuition ». Demandez-lui de formaliser ses détecteurs en règles explicites, il ne peut pas (c'est exactement la raison pour laquelle l'approche Deep Blue, avec ses 8 000 règles codées main, ne fonctionne pas au Go). La compréhension humaine du Go est pattern-based, subsymbolique, et implicite. Le joueur comprend, mais il ne peut pas dire comment il comprend.

Comment AlphaGo satisfait les mêmes critères

Reprenons la factorisation minimale et vérifions :

(1) Représentations internes qui encodent la structure du jeu. La section 7 l'a montré en détail : les couches cachées du réseau construisent des détecteurs hiérarchiques (patterns locaux → concepts stratégiques → jugements globaux) qui encodent des variables structurelles du jeu (influence, vie/mort, potentiel). ✓

(2) Généralisation à des positions nouvelles. Le Coup 37 en est la preuve la plus éclatante : le value network a évalué positivement une position qu'il n'avait (quasi certainement) jamais rencontrée, en appliquant ses détecteurs à une configuration inédite. La convergence d'AlphaGo Zero (section 6) montre que cette généralisation est robuste et indépendante des données d'entraînement. ✓

(3) Guidage du calcul vers les zones pertinentes. C'est le rôle combiné du policy network (qui concentre l'exploration sur les coups plausibles) et de la formule PUCT (qui alloue les ressources de calcul en fonction de l'évaluation). AlphaGo ne calcule pas tout ; il calcule ce qui compte. ✓

Les trois critères sont satisfaits. Et les mécanismes par lesquels ils sont satisfaits sont fonctionnellement analogues à ceux de l'humain :

Fonction Joueur humain AlphaGo
Détecteurs de structure Chunks, patterns acquis par la pratique Features apprises dans les couches cachées
Nature des détecteurs Implicites, non verbalisables Distribués dans les poids, non explicites
Construction des détecteurs Milliers d'heures de pratique Millions de parties de self-play
Généralisation Reconnaissance de patterns dans des positions nouvelles Interpolation par les couches profondes
Allocation du calcul Intuition « où regarder » + lecture sélective Policy network + PUCT
Évaluation globale « Sens positionnel », intuition stratégique Value network

La conclusion logique : refuser la compréhension a un coût

Si la factorisation minimale est satisfaite dans les deux cas, par des mécanismes fonctionnellement analogues, alors refuser la compréhension à AlphaGo oblige à ajouter un critère supplémentaire à la définition. Il faut dire, par exemple : « comprendre, c'est satisfaire les trois critères et être conscient de le faire », ou « et pouvoir l'expliquer en langage naturel », ou « et le faire sur un substrat biologique ».

On peut tout à fait ajouter un tel critère. C'est un choix philosophique légitime. Mais il faut alors assumer deux conséquences :

Premièrement, le critère ajouté n'est pas nécessaire pour jouer au Go de manière surhumaine, puisqu'AlphaGo joue mieux que tous les humains sans le posséder. Ce n'est donc pas un critère de compétence, c'est un critère d'appartenance (« comprendre, c'est ce que font les êtres comme nous »).

Deuxièmement, certains de ces critères supplémentaires excluraient aussi des humains. Si « comprendre » exige de pouvoir verbaliser ses raisons, alors un joueur professionnel qui joue « sur intuition » sans pouvoir expliquer son coup ne « comprend » pas non plus. Si « comprendre » exige la conscience réflexive, alors un joueur en état de « flow » (absorption totale dans la tâche, perte de la conscience de soi) ne « comprend » pas non plus.

Le mot « compréhension », réduit à sa factorisation minimale, devient une propriété fonctionnelle partagée : support organique (humain) versus support silicium (AlphaGo), mais même fait fonctionnel ; un modèle interne compressé, construit par l'expérience, qui généralise et guide l'action. La différence est de substrat et d'échelle, pas de nature.

On ne dit pas qu'AlphaGo est conscient. On ne dit pas qu'AlphaGo « pense comme nous ». On dit quelque chose de plus précis et de plus difficile à réfuter : sur la base de la factorisation minimale de ce qui est nécessaire pour jouer au Go, la distinction fonctionnelle entre les deux s'effondre.

PARTIE IV : L'ANATOMIE DU COUP 37

9. Ce que les logs révèlent : le triomphe de la valeur sur la probabilité

Les logs internes du système AlphaGo, analysés après le match, révèlent une divergence fascinante entre les composants pour le Coup 37. Trois « avis » ont été rendus, et ils se contredisent :

1. Le réseau de politique (SL) : « Ce coup n'existe pas. » Le réseau supervisé, celui qui a appris à imiter les joueurs humains, attribuait au Coup 37 une probabilité de 0,0001 (1 sur 10 000). Pour le module « mimétique » d'AlphaGo, ce coup était invisible. Aucun humain, ou presque, ne le joue. Le prior était quasi nul.

2. L'exploration MCTS : « Et si on essayait quand même ? » Malgré cette probabilité infime, l'algorithme a fini par explorer cette branche. Pourquoi ? Parce que les alternatives « standards » (celles que le réseau de politique SL recommandait) menaient à des évaluations Q insatisfaisantes lors des simulations. Les coups « normaux » ne fonctionnaient pas bien dans cette position. La formule PUCT, en accord avec sa logique d'exploration, a donc fini par allouer du budget de calcul aux coups marginaux, y compris celui-ci. Le système a posé la question : « et si je jouais ici ? »

3. Le réseau de valeur : « C'est gagnant. » C'est l'élément décisif. Une fois le coup testé dans l'arbre, le réseau de valeur, entraîné par self-play et non par des données humaines, a évalué la position résultante comme très favorable (Q élevé). Il a « vu » quelque chose que les humains (et le réseau SL) ne voyaient pas : le potentiel d'influence globale de cette pierre surpassait la perte locale.

Le Coup 37 est le produit de cette friction entre trois systèmes. L'intuition humaine encodée (le policy network SL) rejetait le coup. L'exploration (le MCTS) lui a donné sa chance. L'évaluation objective (le value network, formé par l'expérience synthétique du self-play) l'a validé. L'architecture d'AlphaGo, conçue pour permettre à l'évaluation objective de surpasser le prior humain quand les simulations le justifient, a permis au coup d'être joué.

10. Prédiction ou création ?

Le Coup 37 n'est pas une prédiction

Si l'on définit la « prédiction » comme l'extrapolation de données existantes (induction à partir du passé observé), alors le Coup 37 n'est pas une prédiction. Le réseau supervisé, l'inducteur statistique qui capture les patterns humains, a échoué à le prédire. Il lui attribuait une probabilité de 1 sur 10 000, c'est-à-dire qu'il le rejetait.

Le Coup 37 relève davantage de l'abduction (l'inférence à la meilleure explication, la génération d'une hypothèse nouvelle) ou de la découverte empirique. Le système a généré une hypothèse (le coup) que sa base de connaissance humaine rejetait, mais que sa propre expérience synthétique (value network + rollouts) a validée comme supérieure.

La « création de valeur » : actualisation d'un potentiel ignoré

Il y a « création de valeur » au sens où AlphaGo a découvert une nouvelle vérité positionnelle : l'efficacité du shoulder hit de 5e ligne dans ce contexte spécifique. Cette vérité était absente du corpus de connaissance humaine accumulé sur trois millénaires. Ce n'est pas une invention ex nihilo (le coup existait mathématiquement, comme position légale sur le plateau), mais c'est une actualisation d'une potentialité stratégique que la culture humaine avait écartée.

La nuance est essentielle : AlphaGo n'a pas créé les règles du Go, ni inventé un nouveau jeu. Il a exploré le jeu existant et trouvé un optimum que personne n'avait trouvé avant. C'est de la découverte, au même sens qu'un mathématicien découvre un théorème : le théorème « existait » déjà dans la structure logique, mais personne ne l'avait formulé.

La métacognition algorithmique

Ce que le Coup 37 illustre est une forme de métacognition algorithmique. Le système, par sa conception, est capable de raisonner en quelque sorte ainsi : « Mon intuition (le réseau de politique) me dit que ce coup est mauvais ; mais mon analyse (le réseau de valeur, nourri par l'exploration MCTS) prouve qu'il est bon. Donc je le joue. »

L'originalité du Coup 37 ne vient ni de l'exploration seule (qui aurait été perdue dans le bruit combinatoire sans le guidage du value network), ni du Deep Learning seul (qui aurait simplement imité les humains). Elle vient de leur interaction symbiotique : l'exploration permet de douter de l'intuition humaine, et le réseau de valeur permet de valider ces doutes par une évaluation objective.

AlphaGo n'a pas seulement « calculé » mieux ; il a utilisé le calcul pour s'émanciper de ses propres données d'entraînement.

Création amplifiée vs création autonome

Il faut ici anticiper une objection naturelle : Deep Blue aussi « crée » des choses que les humains ne voient pas. En 1997, Deep Blue a trouvé des combinaisons tactiques de 15 coups de profondeur que Kasparov n'avait pas calculées. On pourrait donc dire : « Deep Blue aussi s'émancipe, lui aussi découvre. Et pourtant, personne ne prétend que Deep Blue comprend les échecs. Donc la découverte ne prouve pas la compréhension. »

L'objection est sérieuse, mais elle s'effondre quand on examine la source de la création.

Tout ce que Deep Blue découvre, il le découvre à l'intérieur du cadre posé par les 8 000 règles humaines. Sa créativité est une création amplifiée : il prend la compréhension humaine, formalisée par des grands maîtres et des ingénieurs, et la pousse plus loin, plus vite. Retirez les 8 000 règles, il ne reste qu'une calculatrice aveugle qui ne sait même pas qu'un fou vaut plus qu'un pion. La compréhension est chez les humains qui l'ont construit, pas dans la machine.

Le Coup 37, lui, n'a pas été produit par des règles humaines. Le value network qui l'a validé a été forgé par le self-play, pas par des experts. Et AlphaGo Zero reproduira ce type de coup sans aucune donnée humaine, sans aucune règle codée main, sans aucun concept injecté par un concepteur. La création n'est pas amplifiée ; elle est autonome. Personne n'a dit au système que le shoulder hit de 5e ligne pouvait être dévastateur. Il l'a trouvé seul, dans un espace que les humains avaient déclaré stérile.

Si cette création ne vient pas du brute force (physiquement impossible, on l'a vu), ni de la mémorisation (réfuté par la convergence d'AlphaGo Zero), ni de la connaissance humaine injectée (zéro données humaines), alors d'où vient-elle ? On ne peut pas répondre « de nulle part ». Quelque chose, dans le réseau, a produit cette connaissance nouvelle. La question de savoir comment nommer ce « quelque chose » est précisément celle que les sections suivantes vont devoir affronter.

PARTIE V : LA PREUVE PAR L'ÉVOLUTION

11. D'AlphaGo Lee à AlphaZero : la purification

Pour confirmer que le Coup 37 n'était pas un accident statistique (un « bug » heureux, une fluctuation chanceuse), il faut observer l'évolution ultérieure de l'algorithme.

L'abandon progressif de la « béquille humaine »

AlphaGo Lee utilisait encore des données humaines pour initialiser ses réseaux et pour les rollouts. Les versions ultérieures (Master, Zero) ont radicalisé l'approche :

Suppression des rollouts. AlphaGo Zero ne fait plus de simulations rapides jusqu'à la fin de la partie. Il fait confiance à 100 % à son réseau de valeur pour évaluer les positions feuilles. C'est une validation empirique remarquable : l'intuition neuronale profonde est devenue plus fiable que la simulation Monte-Carlo explicite. Le paramètre lambda est passé, en quelque sorte, de 0,5 à 1.

Tabula rasa. AlphaGo Zero apprend sans aucune partie humaine, uniquement par self-play. Le réseau de politique et le réseau de valeur sont unifiés dans une seule architecture, entraînée de zéro.

Performance. Sans aucune donnée humaine, AlphaZero atteint un Elo de plus de 5 000, écrasant AlphaGo Lee (Elo d'environ 3 700). Moins de données humaines, architecture plus simple, résultat largement supérieur.

Confirmation de la « vérité » du Coup 37

Le fait le plus frappant est celui-ci : AlphaGo Zero, partant de zéro, sans biais humain initial, redécouvre systématiquement les josekis classiques (les séquences standards que l'humanité a perfectionnées pendant des siècles), mais aussi le type de coups « extraterrestres » comme le Coup 37.

Cela démontre que le Coup 37 correspond à un optimum mathématique réel du jeu de Go, et non à une idiosyncrasie du réseau entraîné sur les données du serveur KGS. L'algorithme a permis de purifier la stratégie du Go des « scories » culturelles et des traditions inefficaces.

La preuve est d'une puissance remarquable : un système qui n'a jamais vu jouer un humain retrouve les meilleures idées humaines ET les dépasse, de manière indépendante. L'exploration pure (MCTS) est un moteur puissant, mais elle a besoin d'un guide (le réseau de valeur) pour naviguer dans l'immensité du possible. La « création » vient de la capacité du réseau de valeur à s'auto-corriger et à affiner son jugement au-delà des préjugés initiaux, guidant l'exploration vers des sommets inatteignables pour l'esprit humain.

Tableau de synthèse

Aspect Prédiction sur arbre (classique) Création de valeur (AlphaGo)
Source de données Parties existantes (humains) Auto-génération (self-play)
Objectif Minimiser l'erreur de prédiction Maximiser la récompense future
Gestion de l'inconnu Extrapolation linéaire (incertaine) Exploration active (MCTS) + évaluation (Value Net)
Résultat Mimétisme optimal Découverte de stratégies « alien »
Le Coup 37 Rejeté (hors distribution humaine) Validé (Q élevé malgré prior P quasi nul)

L'argument par élimination

L'évolution d'AlphaGo Lee vers AlphaGo Zero permet de fermer, une par une, toutes les échappatoires de ceux qui voudraient réduire le Coup 37 à « du calcul » :

« C'est du brute force. » Non. Le tableau de la section 3 le montre : à 37 coups de profondeur au Go, le nombre de positions à explorer dépasse le nombre d'atomes dans l'univers. Aucune vitesse de calcul ne rend cet arbre explorable. AlphaGo évalue 3 000 fois moins de positions par seconde que Deep Blue et joue infiniment mieux au Go. La force ne vient pas du volume.

« C'est de la mémorisation. » Non. La section 6 l'a montré : AlphaGo Zero, entraîné sur des parties entièrement différentes de celles d'AlphaGo Lee, converge vers les mêmes conclusions stratégiques. Deux jeux de données radicalement différents, mêmes résultats. Ce qui a été extrait est la structure du jeu, pas les données.

« C'est la connaissance humaine injectée par les concepteurs. » Non. C'est la différence fondamentale avec Deep Blue. AlphaGo Zero n'a reçu aucune partie humaine, aucune règle codée main, aucun concept formalisé par un expert. Les concepteurs lui ont donné les règles du Go (comment poser une pierre, quand une pierre est capturée) et un objectif (gagner). Rien de plus. Et il a produit des coups que les meilleurs joueurs humains n'avaient jamais imaginés.

Si ce n'est ni la force brute, ni la mémoire, ni la connaissance humaine, alors il reste une seule possibilité : le réseau a construit, par lui-même, une forme de connaissance du jeu de Go. On peut discuter du nom qu'on donne à cette connaissance. On peut refuser de l'appeler « compréhension ». Mais on ne peut pas nier son existence sans nier les faits.

PARTIE VI : CE QUE ÇA CHANGE POUR NOUS

12. Le déplacement de l'autorité cognitive

Ce qu'AlphaGo a modifié profondément dans l'écosystème du Go, ce n'est pas seulement « qui gagne ». C'est qui fait autorité.

Avant AlphaGo

Les joueurs professionnels occupaient une double position. Ils étaient à la fois autorité compétitive (les plus forts gagnent les tournois) et autorité cognitive (les plus forts « savent » ce qui est bon, ils définissent ce qu'est un bon coup, une bonne stratégie, un bon style). Au Go, cette double autorité était particulièrement forte : le jeu étant trop complexe pour être formalisé intégralement, la connaissance passait par la tradition orale, le commentaire d'expert, la transmission de maître à élève. Les josekis (séquences standards) portent un nom qui signifie littéralement « pierres définies » : ce sont des vérités reçues, perfectionnées sur des siècles, qu'on apprend et qu'on ne remet pas en question. La relation entre un maître de Go et son disciple est structurée par cette asymétrie de compréhension : le maître « voit » ce que l'élève ne voit pas encore.

Après AlphaGo

Une partie de l'autorité cognitive est externalisée. Des systèmes surhumains corrigent, évaluent, et suggèrent des lignes meilleures que celles des meilleurs professionnels. Et ces « oracles » deviennent accessibles largement ; n'importe quel amateur peut soumettre une position à une IA et obtenir une évaluation plus fiable que celle du meilleur joueur vivant.

Le choc identitaire

La formulation la plus directe du problème est celle-ci :

Quand ton identité est structurée par « je comprends mieux que les autres », et qu'une machine te dépasse et te corrige partout, ton monde se recompose brutalement.

Ce mécanisme explique des phénomènes observables dans le monde du Go depuis 2016 : certaines retraites précoces de joueurs professionnels, des recompositions de carrière (vers l'enseignement, le commentaire, la création de contenu), des tensions entre les tenants de la tradition esthétique et ceux qui adoptent les « coups IA » sans les comprendre, et plus généralement une difficulté à accepter que « compréhension » puisse exister sous une autre forme que la forme humaine.

Et c'est de ce choc que naît, très naturellement, un argument de défense.

« Il calcule, nous on comprend » : anatomie d'un refus

Face à la démonstration que les critères fonctionnels de la compréhension sont satisfaits par AlphaGo (section 8), la réponse la plus fréquente est : « Oui, mais lui calcule. Nous, on comprend. Ce n'est pas la même chose. »

Cet argument a une force intuitive considérable. Nous ressentons que nous comprenons. Il y a quelque chose que ça fait d'être un joueur de Go qui voit une bonne position. AlphaGo, présume-t-on, ne ressent rien.

Mais cette intuition, aussi puissante soit-elle, pose trois problèmes.

L'opacité est symétrique. On reproche souvent aux réseaux de neurones d'être des « boîtes noires » : on ne voit pas directement les représentations internes dans les CNN d'AlphaGo. C'est vrai. Mais un joueur 9 dan est tout aussi opaque à lui-même. Demandez-lui pourquoi il « sent » que telle position est bonne, il dira : « C'est l'intuition, je ne sais pas l'expliquer. » Son cortex active des détecteurs construits par des milliers d'heures de pratique, et il n'a accès qu'au résultat (une sensation de justesse), pas au processus. Exiger de l'un une transparence qu'on n'exige pas de l'autre est un double standard.

On ne sait pas ce que fait notre propre cerveau. Dire « il calcule, nous on comprend » suppose que nous savons ce que fait notre cerveau quand nous « comprenons », et que c'est qualitativement différent de ce que fait AlphaGo. Or les neurosciences montrent que la compréhension experte humaine est du calcul neuronal : des activations, du pattern matching, des pondérations synaptiques ajustées par l'expérience. Chase et Simon ont montré dès les années 1970 que la maîtrise aux échecs repose sur le chunking (reconnaissance rapide de configurations), pas sur un raisonnement conscient supérieur. La distinction « comprendre vs calculer » pourrait être une illusion introspective : nous ressentons que nous comprenons, mais ce ressenti est peut-être la manière dont notre conscience perçoit un processus qui, mécaniquement, est structurellement similaire à celui d'AlphaGo.

La charge de la preuve est inversée. L'article a montré, section après section, que la compétence d'AlphaGo ne vient ni du brute force, ni de la mémorisation, ni de la connaissance humaine injectée (section 11). Que le réseau a construit des représentations internes hiérarchiques qui encodent la structure du jeu (section 7). Que ces représentations lui permettent de généraliser, de guider son calcul, et de découvrir des vérités stratégiques que personne n'avait trouvées (section 10). Que la factorisation minimale de « comprendre le Go » est satisfaite (section 8). Ce n'est pas à celui qui dit « AlphaGo comprend » de prouver la conscience. C'est à celui qui dit « AlphaGo ne comprend pas » de montrer quel ingrédient fonctionnel manque, et pourquoi cet ingrédient serait nécessaire au jeu plutôt qu'un simple accompagnement subjectif.

Le miroir

Et c'est peut-être ici que se trouve la leçon la plus inconfortable.

La résistance à dire « AlphaGo comprend » n'est pas seulement une défense identitaire des joueurs de Go ou des experts en intelligence artificielle. C'est un refus de voir ce que la compréhension humaine a peut-être toujours été : des détecteurs forgés par l'expérience, implicites, non verbalisables, qui compriment un espace immense et guident l'action. Les humains faisaient cela depuis trois mille ans au Go sans le savoir, en l'appelant « intuition », « sens positionnel », « talent ».

AlphaGo Zero, en redécouvrant les mêmes vérités stratégiques à partir de rien en quelques jours, ne prouve pas seulement qu'une machine peut « comprendre aussi ». Il révèle ce que comprendre a toujours été : un processus de compression de structure par l'expérience, qui produit des représentations internes généralisantes, quel que soit le substrat qui l'exécute.

Et la preuve la plus éclatante que ce processus n'est pas inférieur à la « vraie » compréhension mystique, c'est que c'est lui qui a produit le Coup 37 ; quelque chose que trois millénaires d'intuition humaine, de talent, de « vrai sens positionnel » n'avaient pas trouvé.

13. Ouverture : pourquoi ce schéma dépasse le Go

Le Go est un laboratoire exceptionnellement propre pour étudier ces questions : règles simples, espace immense, mesure claire de performance (on gagne ou on perd), pas d'ambiguïté linguistique, pas de subjectivité dans le résultat. C'est le premier domaine où l'argument par élimination est complet : le brute force est physiquement impossible, la mémorisation est réfutée, la connaissance humaine injectée est absente, et la performance est surhumaine. Dans d'autres domaines (la médecine, le droit, la création artistique), il y aura toujours plus de bruit, plus d'ambiguïté, plus de marge pour esquiver la question. Au Go, la démonstration est chirurgicale. C'est ce qui rend l'histoire d'AlphaGo si puissante comme cas d'étude.

Mais ce que cette histoire révèle est transposable bien au-delà du Go.

Dans tout domaine où l'expertise humaine était aussi une autorité cognitive (la médecine, le droit, la finance, le design, la stratégie d'entreprise), l'arrivée d'un « oracle » IA redistribue le pouvoir symbolique. Les questions que les joueurs de Go se sont posées en 2016, d'autres professionnels commencent à se les poser aujourd'hui : si une machine peut faire mieux que moi, quel est mon rôle ? Si elle peut découvrir ce que je n'avais pas vu, suis-je encore expert ? Si elle comprend (au sens fonctionnel) mieux que moi, qu'est-ce que « comprendre » veut dire ?

Une partie de la résistance à l'idée que ces systèmes « comprennent » vient d'une défense implicite. Si l'IA ne « comprend » pas, alors l'humain garde le monopole ontologique de l'intelligibilité, et donc une partie du statut et du sens demeure intacte. C'est humainement compréhensible, mais intellectuellement fragile face aux faits.

Le Go montre que la question « comprennent-ils ? » n'est pas seulement technique. C'est souvent, en filigrane, une question de recomposition des hiérarchies de savoir.

Et c'est peut-être la leçon la plus profonde du Coup 37 : ce n'est pas seulement un coup de Go, c'est un coup porté à une certaine idée de ce que signifie être expert.

ANNEXES

Glossaire

Alpha-beta (recherche) : algorithme d'exploration d'arbre de jeu qui évalue systématiquement les branches en élaguant celles qui ne peuvent pas améliorer le résultat. Utilisé par Deep Blue.

APV-MCTS : variante asynchrone du MCTS utilisée par AlphaGo, guidée par les réseaux de politique et de valeur. Le « A » signifie Asynchronous, le « P » Policy, le « V » Value.

Branching factor (facteur de branchement) : nombre moyen de coups légaux dans une position donnée. Environ 35 aux échecs, environ 250 au Go.

Brute force : exploration massive peu informée, où la performance est dominée par le volume d'expansion de l'arbre.

CNN (Convolutional Neural Network) : réseau de neurones convolutif, type d'architecture particulièrement adapté au traitement d'images et de grilles (comme le plateau de Go).

Compression fonctionnelle : réduction de dimension qui améliore la décision et la généralisation, par opposition à un simple cache (mémorisation).

Feature planes : canaux d'entrée du réseau de neurones décrivant l'état du plateau (positions des pierres, libertés, historique, etc.).

Joseki : séquence de coups standardisée au Go, considérée comme un échange équitable entre les deux joueurs. Fruit de siècles de pratique humaine.

Ko : situation au Go où la capture d'une pierre pourrait mener à une répétition infinie ; les règles interdisent la recapture immédiate.

Ladder (échelle) : séquence tactique au Go où un groupe de pierres est poursuivi en diagonale et finit capturé s'il ne trouve pas d'échappatoire.

MCTS (Monte Carlo Tree Search) : recherche arborescente qui alloue des simulations en équilibrant exploitation (approfondir les coups prometteurs) et exploration (tester des coups peu visités).

Overfitting (sur-apprentissage) : phénomène où un modèle apprend trop spécifiquement les données d'entraînement et perd sa capacité de généralisation.

Policy Network (réseau de politique) : réseau de neurones qui fournit une distribution de probabilité sur les coups plausibles dans une position donnée.

PUCT (Predictor Upper Confidence Bound applied to Trees) : variante de la formule UCB utilisée pour la sélection des nœuds dans le MCTS, intégrant des probabilités a priori fournies par un prédicteur (ici, le policy network).

Recherche guidée : exploration orientée par un modèle interne (priors + évaluations), par opposition à la brute force.

Représentation interne : variables latentes (souvent distribuées dans les poids d'un réseau) qui encodent de la structure utile du domaine.

Rollout : simulation rapide d'une partie jusqu'à son terme, utilisée pour estimer la valeur d'une position dans le MCTS classique.

Self-play : méthode d'entraînement où le système joue contre lui-même pour générer des données et s'améliorer.

Shoulder hit (coup d'épaule) : coup au Go consistant à poser une pierre diagonalement adjacente à une pierre adverse, typiquement une ligne au-dessus.

Value Network (réseau de valeur) : réseau de neurones qui estime directement la probabilité de victoire depuis une position donnée, sans simulation.

Sources principales

  1. Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529, 484-489.
  2. Silver, D. et al. (2017). Mastering the game of Go without human knowledge. Nature, 550, 354-359.
  3. Silver, D. et al. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play. Science, 362(6419), 1140-1144.
  4. AlphaGo, Google DeepMind : https://deepmind.google/research/alphago/
  5. AlphaGo versus Lee Sedol, Wikipedia : https://en.wikipedia.org/wiki/AlphaGo_versus_Lee_Sedol
  6. Bailey, K. Was AlphaGo's Move 37 Inevitable? : https://katbailey.github.io/post/was-alphagos-move-37-inevitable/
  7. Hui, J. AlphaGo: How it works technically? Medium.
  8. AlphaGo Zero: Starting from scratch, Google DeepMind Blog : https://deepmind.google/blog/alphago-zero-starting-from-scratch/
  9. Campbell, M., Hoane, A.J., Hsu, F. (2002). Deep Blue. Artificial Intelligence, 134(1-2), 57-83.
  10. Chase, W.G. & Simon, H.A. (1973). Perception in chess. Cognitive Psychology, 4(1), 55-81.
  11. De Groot, A.D. (1965). Thought and Choice in Chess. Mouton.
  12. Rosin, C.D. (2011). Multi-armed bandits with episode context. Annals of Mathematics and Artificial Intelligence, 61, 203-230.
  13. Sutton, R. (2019). The Bitter Lesson. http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Contributeurs

Kira Kiranova - Relectrice et inspiratrice infatigable de mes nombreuses expéditions intellectuelles.

Fabien Mikol - 1er lecteur et ajout d'un personnage à la fable pédagogique de l'expédition du coup 37

Note finale de l'auteur

Ce texte a été rédigé avec l'aide d'outils de synthèse IA, à travers des corrections et des allers-retours constants. La structure, les articulations et les impulsions sont les miennes ; c'est précisément cet effort qui me permet d'apprendre réellement ce que j'écris.

L'objectif de ce travail était avant tout pédagogique pour moi. BCS blog existe parce que je comprends mieux en écrivant. C'est le moteur essentiel de ces articles.

Olivier Heckendorn

Le blog BCS est également accessible via bcs-blog.fr.


Souscrivez à mon blog et recevez ma newsletter mensuelle une fois par mois, pas plus, pas moins - Résumé des articles récents et quelques infos.



Check out my last posts


Olivier Heckendorn - site olivierh.com - RSS feed Le blog est également accessible via bcs-blog.fr.

#Article #French #deep-learning