Articles Wikipedia :
Voir aussi : Reasoning Language Model (RLM).
Premier papier de recheche qui a introduit le concept de chain-of-thought en janvier 2022 : arXiv:2201.11903 - Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.
Les papiers fondateurs du concept *chain-of-thought, par ordre chronologique donné par Sonnet 4.6 :
- Wei et al. (2022) — Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Google Brain, NeurIPS 2022. C'est le papier fondateur qui nomme et formalise le concept. Jason Wei et ses co-auteurs montrent que demander au modèle de produire des étapes de raisonnement intermédiaires améliore drastiquement les performances sur des tâches arithmétiques, de bon sens et symboliques — mais seulement pour les modèles suffisamment grands (>100B paramètres à l'époque).
- Kojima et al. (2022) — Large Language Models are Zero-Shot Reasoners Google / Université de Tokyo.
Introduit le fameux "Let's think step by step" — le zero-shot CoT. La découverte clé : pas besoin d'exemples (few-shot) pour déclencher le raisonnement, une simple instruction suffit. Publié la même année que Wei et al., souvent cité conjointement.- Wang et al. (2022) — Self-Consistency Improves Chain of Thought Reasoning in Language Models Google Brain. Propose de générer plusieurs traces de raisonnement différentes et de voter sur la réponse finale. Améliore significativement les performances par rapport au CoT simple en exploitant la diversité des chemins de raisonnement.
- Yao et al. (2023) — Tree of Thoughts: Deliberate Problem Solving with Large Language Models Princeton / Google DeepMind. Généralise le CoT linéaire en un rbre de raisonnement avec backtracking et exploration de branches alternatives — Tree-of-Thoughts (ToT). Passage du raisonnement séquentiel au raisonnement arborescent.
- Yao et al. (2022) — ReAct: Synergizing Reasoning and Acting in Language Models Princeton / Google Brain. Combine CoT avec des appels d'outils (recherche, calculatrice…) en alternant pensée et action. C'est la base conceptuelle des agents LLM modernes, et directement l'ancêtre du interleaved thinking qu'on voit dans GLM-5 ou Claude Sonnet 4.6.
La ligne de démarcation importante
Tous ces papiers traitent du CoT comme technique de prompting — on incite le modèle à raisonner, mais l'entraînement reste inchangé. La rupture vers les RLM vient plus tard :
- Lightman et al. (2023) — Let's Verify Step by Step (OpenAI) : première exploration sérieuse des Process Reward Models (PRM) pour récompenser les étapes de raisonnement correctes.
- DeepSeek-R1 (2025) — Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, montre qu'on peut entraîner le raisonnement par RL pur (GRPO) sans PRM, et que le CoT "profond" émerge spontanément.
C'est cette transition — du CoT comme prompt vers le CoT comme politique apprise — qui définit le passage du LLM au Reasoning Language Model (RLM).