Je viens d'écouter la dernière vidéo de Monsieur Phi : Comment parler intelligemment d'intelligence ?.
Comme toujours avec Thibaut Giraud, une vidéo qui donne matière à pensée.
Ce qui m'a particulièrement intéressé, c'est d'en savoir plus au sujet de ARC-AGI et ARC-AGI-2. Benchmark que j'avais découvert en décembre 2024.
J'ai passé un peu de temps à analyser le leaderboard de ARC-AGI : https://arcprize.org/leaderboard.
Voici le sommaire de cette vidéo :
- 0:00 - Intro
- 0:50 - Sponso NordVPN
- 2:16 - Des étincelles d'intelligence générale dans GPT-4
- 6:40 - Nous sommes médiocres en tout (et c'est très fort)
- 9:21 - L'intelligence selon François Chollet
- 11:52 - Les benchmarks usuels ne testent que la mémorisation 14:51 - ARC-AGI : un test de QI pour IA
- 17:36 - Les LLM échouent lamentablement
- 20:04 - Les modèles de raisonnement font une percée
- 23:53 - Détour par d'autres benchmarks (Codeforces et Humanity's Last Exam)
- 27:29 - Des progrès en maths : FrontierMaths et AlphaEvolve
- 30:16 - Des CoT à n'en plus finir
- 32:55 - ARC-AGI-2 le retour
- 35:09 - Leaderboard actuel
- 37:55 - Conclusion + outro