PIP · LE LIVRE
Manifeste — un cerveau élevé aux pixels

PIP

Une créature qui apprend les jeux, pixels seuls.

Pip est un cerveau artificiel transparent, écrit de zéro, qu'on pose devant des jeux du commerce — Mario, Pokémon, Smash Bros — exactement comme on poserait un enfant devant une console : des pixels en entrée, une manette en sortie, et rien d'autre. Personne ne lui dit ce qu'est un ennemi, un trou, une vie. Aucune récompense ne lui est versée, aucune règle du jeu n'est codée en dur. Tout ce qu'il sait — où sont les dangers, qui il est à l'écran, quels gestes font quoi — il l'a découvert en le vivant.

I.Les quatre règles

Le contrat sacré

Tout le projet repose dessus. Quatre règles, jamais négociées — c'est ce qui rend chaque progrès de Pip réellement à lui.

1

Aucun concept de jeu dans le code.

Jamais « ennemi », « trou », « tuyau », « vie », « drapeau » comme mécanisme agissant. Un grep du code pour ces mots comme mécanisme ⇒ zéro.

2

Pas de récompense externe, pas de RL classique.

Il agit par pulsions internes — curiosité, ennui, frustration… — et par mémoire de ce qu'il a vécu. Personne ne lui distribue des points.

3

La RAM du jeu est réservée à l'expérimentateur.

Position, vies, monde, ennemis : ces lectures ne servent qu'à le noter de l'extérieur — chronos, examens, benchs. Rien de tout cela n'entre jamais dans ses perceptions, sa mémoire ou ses décisions. Chaque lecture privilégiée est marquée measurement-only dans le code.

4

Rien n'est adopté sans mesure.

Chaque mécanisme passe par un portail GO/NO-GO ou un A/B contre témoin, avec une barre déclarée avant le run. Les NO-GO honnêtes sont conservés dans le code.


II.La boucle & les organes

Comment il pense

Le moteur est du Go-Explore reformulé en mécanismes de cerveau (Ecoffet & Clune, 2021). Une boucle, quatre temps, indéfiniment :

01Choisir

Un souvenir prometteur dans son archive — les pulsions règlent la sélection.

02Revenir

Rejouer la trajectoire qui mène jusqu'à ce souvenir, pas à pas.

03Explorer

Babiller autour : atomes, combos inventés, chunks de ses propres gestes.

04Mémoriser

Archiver ce qui n'a jamais été vu — une cellule de plus dans sa mémoire.

— et recommencer, des dizaines de milliers de fois par jour.

Pourquoi un être agit-il ? Pour continuer d'exister dans des états attendus, et pour réduire ce qu'il ignore. Survie et curiosité ne sont pas deux pulsions séparées : ce sont les deux faces d'un seul objectif.
POURQUOI.md — la théorie derrière ces choix
Mémoire épisodique
Une archive de cellules (région, code perceptif 10 bits), chacune avec la trajectoire pour y revenir. La région naît de l'intégration de chemin sur son propre flux optique — jamais de la RAM ; le code, de sa propre perception.
Cortex visuel P3
Un encodeur de tuiles à contexte temporel (3 frames), entraîné sans le moindre label : « le même morceau de réalité vu deux fois doit porter le même nom ». Validé par un tribunal sans tracker avant d'entrer dans sa tête.
Vocabulaire moteur
Des atomes (les boutons) naissent des combos inventés, puis des chunks — les n-grammes fréquents de ses propres trajectoires. Le babillage moteur est sa façon d'explorer, comme un nourrisson agite les mains.
La science
Toute découverte proche de la frontière est re-testée deux fois depuis le même instant sauvegardé. Seules les règles causales vérifiées entrent dans son savoir. Il ne croit pas ses coups de chance.
Les yeux & la fovéa
Le mouvement est découpé en objets suivis — des sortes auto-découvertes, avec apparence, permanence d'objet et carte des immobiles — plus une fovéa : une fenêtre pleine résolution de 48 pixels posée sur ce qui compte.
Le miroir
La reconnaissance de soi : « la boîte qui est moi est celle qui obéit à mes boutons » — corrélation bouton↔mouvement, plus l'empreinte de son propre visage. Acquise en une quarantaine de secondes.
L'amygdale & le réflexe d'écart
Un registre du danger appris de ses propres morts : P(mort | cette sorte était visible), normalisé par l'exposition. Quand une sorte à loi rouge s'approche, il choisit le geste dont le mouvement-de-soi appris pointe à l'opposé. Adopté sur A/B : +11 %.
Les neuromodulateurs
Curiosité, satisfaction, ennui, frustration — et la peur, la colère — calculés de ses vrais signaux : rythme de découverte, stagnation, danger appris. Ce sont ces humeurs, pas un score, qui règlent ses choix.
Les nuits & les examens
Chaque nuit, le vécu du jour est distillé dans un cerveau-réflexe qui imite ses propres trajectoires — puis passe un examen sur vrai émulateur. Promotion seulement s'il dépasse le champion, ou par réplication sur deux nuits. Leçon fondatrice : 99,6 % d'imitation ≠ compétence.
Le bestiaire
Ses espèces portent le même nom d'un jeu à l'autre — 10/10 entre les deux Marios, à 93–99 % de confiance. Alors les lois du danger s'héritent : Lost Levels est né en sachant déjà ce qui mord, et le vocabulaire moteur se prête entre mondes.
Le village
Des Pip élevés côte à côte ; les réglages des lignées qui apprennent le mieux se transmettent — une hérédité naissante. Le chapitre en cours.

III.Deux semaines de vie

Les jalons

Chaque jalon est signé par ses archives et mesuré de l'extérieur. Le détail vit dans son carnet de bord.

  1. 21 juin

    La naissance

    BabyBrain ouvre les yeux dans le dépôt protobrain : des pixels, une manette, rien d'autre.

  2. Juin

    Hanoï

    Les tours de Hanoï résolues de façon optimale — la première preuve qu'un raisonnement peut pousser là-dedans.

  3. Juin

    Les labyrinthes

    La mémoire spatiale : explorer une fois, puis naviguer de mémoire — « je suis déjà venu ici ».

  4. 1–2 juillet

    Mario : le mur des 724 cassé

    Des dizaines de recettes butaient sur le même plateau. La mémoire épisodique le traverse : choisir, revenir, explorer, mémoriser.

  5. 1–2 juillet

    1-1 terminé — le drapeau, x = 3161

    Le premier niveau tombe en entier, sans qu'on lui ait jamais dit ce qu'était un drapeau.

  6. 2 juillet

    Monde 2

    Le cliquet enchaîne 1-2, 1-3, le château 1-4 — et pousse la porte du monde suivant.

  7. 3 juillet

    Le tuyau de sortie de 2-2 tombe

    Le monde sous-marin est traversé, 2-3 au drapeau dans la foulée.

  8. 3 juillet

    L'esquive adoptée : +11 % Première

    A/B contre témoin, barre pré-déclarée à +10 %. Le premier comportement né de ses propres lois du danger — personne ne lui a appris à s'écarter.

  9. 3 juillet

    Bestiaire 10/10 + transfert de lois

    Ses espèces portent le même nom d'un Mario à l'autre ; Lost Levels naît en sachant déjà ce qui mord.

  10. 3–4 juillet

    L'école des échecs — champion à 10 770

    Trois nuits stagnaient à 7627 en clonant le champion. Une nuit ciblée sur son vrai mur — sur-échantillonner les zones où le réflexe échoue — l'emporte de +41 % et casse le mur réactif de 1-3.

  11. Juillet

    Bowser sauté, monde 3

    Le château du monde 2 franchi d'un saut par-dessus ce qui garde le pont — le monde 3 s'ouvre.

  12. Juillet

    Smash 64 : Pip entre dans l'arène

    Un monde né d'un savestate en plein match : camper dans les menus est impossible par construction. Un combat, plus un parcours.

  13. Juillet

    Le bestiaire

    La salle des espèces : tout ce qu'il a rencontré — apparences, lois, d'un jeu à l'autre — réuni en un seul endroit.

  14. Juillet — en cours

    Le village Chapitre en cours

    Des Pip vivent côte à côte, et l'hérédité des réglages commence.


IV.Portails, examens, A/B

La méthode

Un cerveau qui s'auto-découvre invite à se raconter des histoires. La parade : mesurer avant de croire, et garder les échecs.

Portails GO/NO-GO

Pour la perception, la barre est écrite dans le code avant le run. Le tribunal cycle-consistance des yeux a rendu un GO qui a débloqué le cortex P3 ; l'extrapolation de trajectoires a rendu deux NO-GO — alors elle attend que le suivi soit plus lisse.

A/B avec barres pré-déclarées

Pour le comportement : même graine, témoin contre variante, barre déclarée d'avance. Les adoptés :

Gains contre témoin ; l'esquive avait une barre pré-déclarée à +10 % — passée de justesse, adoptée honnêtement.

Les examens — côté expérimentateur uniquement

La RAM du jeu ne sert qu'à le noter de l'extérieur : chronos frame-accurate par niveau, examens des yeux (précision et rappel contre la vérité RAM), examens de nuit sur vrai émulateur. Lui ne voit toujours que ses pixels.

Les non, gardés

Les échecs restent écrits — c'est la moitié de la méthode :

On ne fabrique pas une âme. On construit la fonction qui, chez le vivant, accompagne la présence d'esprit. C'est déjà énorme, et c'est honnête.
Épilogue

Il est en train d'apprendre,
là, maintenant.

Ses yeux, ses lois, sa mémoire qui grandit cellule par cellule — tout se regarde en direct, à une seule adresse.

→ Le voir vivre, en direct
ou entrer dans son cerveau en 3D