Espace latent

Article Wikipedia : https://fr.wikipedia.org/wiki/Espace_latent

Explication de Sonnet 4.6 :

L'espace latent est une notion fondamentale en apprentissage automatique. Voici l'explication depuis le bas.

Le problème de représentation

Quand un réseau de neurones traite du texte, il ne travaille pas directement avec des mots ou des lettres. Il doit d'abord convertir chaque token en un vecteur de nombres — une liste de flottants, typiquement de plusieurs milliers de dimensions. C'est ce qu'on appelle un embedding.

Ce vecteur vit dans un espace mathématique à haute dimension : l'espace latent.

Pourquoi "latent" ?

"Latent" signifie caché, sous-jacent. L'idée est que cet espace encode des propriétés sémantiques et conceptuelles qui ne sont pas directement observables dans le texte brut. Le modèle a appris, pendant l'entraînement, à organiser cet espace de façon à ce que des concepts proches soient proches géométriquement.

L'exemple classique : dans l'espace latent d'un bon modèle de langue,

vecteur("roi") - vecteur("homme") + vecteur("femme") ≈ vecteur("reine")

Ce n'est pas du tout programmé explicitement — c'est une structure qui émerge de l'entraînement.

Ce qui se passe dans un transformer

À chaque couche du transformer, les vecteurs sont transformés et mélangés via le mécanisme d'attention. À la sortie de la dernière couche, on obtient un vecteur final pour chaque position dans la séquence — ce vecteur est ensuite projeté sur le vocabulaire pour produire une distribution de probabilités sur le prochain token.

Le raisonnement du modèle n'est pas dans les tokens produits, il est dans ces transformations successives de vecteurs dans l'espace latent. Les tokens générés ne sont que la projection finale, la "surface" visible de ce traitement interne.

Quand on parle de raisonnement en espace latent (comme dans Coconut ou Recurrent Depth), l'idée est de laisser le modèle faire plusieurs itérations de transformations vectorielles sans forcer la projection vers des tokens lisibles entre chaque étape. Le modèle "pense" directement dans cet espace continu et haute dimension, puis ne projette vers du texte qu'à la fin.

L'avantage théorique : l'espace latent est bien plus riche et continu que le vocabulaire discret des tokens. Forcer le modèle à passer par des tokens entre chaque étape de raisonnement, c'est comme lui imposer de traduire sa pensée en langage humain à chaque intermédiaire — ce qui peut être une contrainte artificielle et appauvissante.

En résumé : l'espace latent, c'est l'espace mathématique interne dans lequel le modèle représente et manipule les concepts. Il est "latent" parce que non directement observable, et c'est là que se passe l'essentiel du traitement — les tokens ne sont que l'interface entre ce monde interne et le monde humain lisible.

Quitter le mode Zen