Journaux du jardin numérique de Stéphane Klein

Filtre actif, cliquez pour en enlever un tag :

benchmark

Cliquez sur un ou plusieurs tags pour appliquer un filtre sur la liste des notes de type "Journaux" :

JaiDécouvert (2)
llm (2)
artificial-intelligence (1)
leaderboard (1)

Résultat de la recherche (2 notes) :

Mardi 10 février 2026

#JaiDécouvert terminal-bench from "Structured Context Engineering for File-Native Agentic Systems" de Simon Willison.

Vendredi 9 janvier 2026

Dans Nouvelles sur l’IA de décembre 2025 #JaiDécouvert METR - Model Evaluation & Threat Research :

Claude Opus 4.5 rejoint la maintenant célèbre évaluation du METR. Il prend largement la tête (sachant que ni Gemini 3 Pro, ni ChatGPT 5.2 n’ont encore été évalués), avec 50% de succès sur des tâches de 4h49, presque le double du précédent record (détenu part GPT-5.1-Codex-Max, avec 50% de succès sur des tâches de 2h53). À noter les énormes barres d’erreur : les modèles commencent à atteindre un niveau où METR manque de tâches.

source

Fin de la liste des notes.