Analyse par Sonnet 4.6 des commentaires Hacker News à propos de Kimi K2.6

J'ai maintenant une couverture complète des 247 commentaires extraits des deux premiers chunks (représentant ~66% des 371 commentaires), plus le chunk 3 qui apportait essentiellement des commentaires sur la vie privée, le droit chinois/américain, et les licences. Les données essentielles sur les LLMs sont bien couvertes. Voici l'analyse complète :

Tableau Coding — Comparaison des modèles

Modèle Points forts Points faibles Benchmarks coding
Kimi K2.6 • Top open-weights en coding one-shot selon gertlabs.com
• Très bon pour le design frontend
• Excellent tool-calling et task adherence (proche d'Anthropic)
• Long-horizon coding : 4000+ tool calls sur 12h, implémentation en Zig depuis zéro
• Cursor "Composer 2" basé dessus (K2.5 finetune), usage en production validé
• Fonctionne "surprenamment bien" avec Claude Code via proxy
• "Overthinking" sévère : 50k+ tokens de pensée sans agir (analysis paralysis)
• Casse le code dans des tâches de refactor complexes (boucles, git checkout --)
• Faible sur backend/tâches avancées (K2.5)
• Instruit mal les outils via OpenCode (vs CLI native Kimi)
• Struggle sur puzzles, tâches domain-specific, exactness tasks
• Long-contexte agentic : comportement à confirmer >100k tokens
• Coding benchmark vs Opus 4.6 : Kimi gagne 5, Opus gagne 1 (selon éditeur du modèle)
• Top open-weights one-shot coding, légèrement supérieur à GLM 5.1 (gertlabs.com)
• Comparable à Gemini 3.1 Pro Preview (modèles de ~3 mois)
• Tests K2.5 : inférieur à Opus 4.5 globalement (Topfi)
Kimi K2.5 • Bon pour small/medium tâches
• Performance coding "décente"
• Base du Cursor Composer 2
• Chaos monkey sur la codebase si utilisé localement (72B)
• Mess sur tâches complexes (Codex nécessaire pour nettoyage)
• Légèrement inférieur à K2.6
• K2.5 one-shot : "pas un release notable comparé à K2.6" (gertlabs.com)
Claude Opus 4.6 • Meilleur overall selon plusieurs users
• Task adherence, tool calling de référence
• Bon pour TypeScript et langages "mainstream"
• Dégradation perçue depuis février (vibes)
• Quotas d'usage ridiculement petits (Claude Code Pro)
• Prix : ~11x plus cher que Kimi K2.5 en API
• Coding vs Kimi K2.6 : Opus gagne 1, Kimi gagne 5 (benchmarks éditeur)
• Rust/C++ : score inférieur à Codex selon gertlabs (agentic coding)
Claude Opus 4.7 • "Jump très significatif" en performance (Topfi)
• Plus fiable sur >120k tokens, tâches longues sans compaction
• 1M context window
• XHigh : task adherence régressée avec <1/10 du contexte utilisé • Référence comme "winner" sur le leaderboard gertlabs (coûts à confirmer)
Codex (OpenAI) • "Beaucoup meilleur overall engineer" selon un user Rust
• Très compétent en Rust/C++
• Compaction long-running tasks la mieux implémentée de tous les modèles
• GPT-5.4 inférieur à Opus 4.6 1M et Opus 4.7 1M dans les tests personnels (Topfi) • Rust/C++ : supérieur à Claude/Opus selon gertlabs (agentic)
GLM 5.1 • Excellente gestion des longs contextes en agentic workflows (contrairement aux autres open-weights)
• Proche de Kimi K2.6 en one-shot coding
• "Overthinking" typique des modèles chinois
• Deepinfra ne préserve pas correctement le "thinking" pour GLM 5.1
• Légèrement inférieur à Kimi K2.6 en one-shot coding (gertlabs.com)
• Ensemble K2.6+GLM5.1 = "Sonnet level at Haiku pricing"
Qwen 3.6 • "Really good" selon un user
• Punching above its weight (Qwen 3.*)
• Bonne SVG/vision selon clocks benchmark
• Pas encore Opus-level • Pas de chiffres spécifiques mentionnés

Tableau Intelligence générale — Comparaison des modèles

Modèle Points forts Points faibles Benchmarks généralistes
Kimi K2.6 • "Strong multimodal AI model" le plus fort en open-weights
• Vision : Kimi gagne 9, Opus gagne 0 (benchmarks éditeur)
• Raisonnement long-horizon
• Créativité et prose bien structurée (K2, K2.5)
• Raisonnement & connaissance : Kimi gagne 1, Opus gagne 4
• Puzzle/domain-specific : instruction misses fréquents
• Wolf-goat-cabbage problem : échoue (Sonnet 4.6 aussi)
• Agentic vs Opus 4.6 : tie 5-5
• HLE (Humanity's Last Exam) mentionné dans les benchmarks officiels (accès restreint sur HuggingFace)
• Légèrement moins intelligent que les SOTAs overall (aibenchy.com)
Claude Opus 4.6 • Meilleur en raisonnement & connaissance
• Référence pour tâches polyvalentes
• Sidegrade perçu (gestion coûts Anthropic ?)
• Quotas très contraints
• Raisonnement & connaissance vs Kimi : Opus gagne 4, Kimi gagne 1
Claude Opus 4.7 • Wolf-goat-cabbage : résout sans problème (Sonnet 4.6 et Kimi K2.6 échouent)
• Référencé comme meilleur pour les tâches beyond 120k tokens
Claude Sonnet 4.6 • Bon rapport qualité/prix
• "Résultats comparables à Kimi K2.6" pour des tâches courantes (vibe test)
• Échoue wolf-goat-cabbage
GPT / OpenAI • "OpenAI seul peut faire de nouveaux paradigmes" (opinion minoritaire)
• Compaction fonctionnelle
• GPT-5.4 inférieur à Opus 4.6/4.7 1M dans tests
• "Struggling" pour certains users
Gemini • Gemini 3.1 Pro Preview : niveau comparable à Kimi K2.6 actuel (benchmarks d'il y a ~3 mois)
• Modèles Gemma 4 bons dans la gamme basse
• Limites d'usage (pire que Claude et ChatGPT)
Qwen / DeepSeek • "Chinese frontier" en open-weights
• Bonne génération SVG/visuelle

Comparaison directe entre modèles

Coding

Confrontation Résultat Contexte
Kimi K2.6 vs Opus 4.6 (coding benchmarks éditeur) K2.6 gagne 5-1 Benchmarks choisis par l'éditeur, biais possible
Kimi K2.6 vs Kimi K2.5 K2.6 légèrement supérieur Gertlabs.com one-shot coding, amélioration "majeure" sur K2 Thinking
Kimi K2.6 vs GLM 5.1 K2.6 légèrement au-dessus One-shot coding reasoning (gertlabs.com)
Kimi K2.6 vs Gemini 3.1 Pro Preview Comparable K2.6 "strong contender against SOTA from ~3 months ago"
Codex vs Claude/Opus (Rust/C++) Codex supérieur gertlabs.com agentic coding, biais selon langage
Opus vs Codex (TypeScript) Opus supérieur Même source
K2.6 vs Sonnet 4.6 Comparable selon un user "Results line up with 4.6 Sonnet" (vibe test app)
K2.5 vs Opus 4.5 Opus supérieur overall, K2.5 proche Long-running task adherence + tool calling
Kimi K2.5 via OpenCode vs via CLI native CLI native supérieure "OpenCode really hurts model performance" (K2.5)

Intelligence générale

Confrontation Résultat Contexte
Kimi K2.6 vs Opus 4.6 (raisonnement & connaissance) Opus gagne 4-1 Benchmarks éditeur
Kimi K2.6 vs Opus 4.6 (vision) K2.6 gagne 9-0 Benchmarks éditeur (multimodal)
Kimi K2.6 vs Opus 4.7 (wolf-goat-cabbage) K2.6 échoue, Opus 4.7 réussit Test de raisonnement logique custom
Kimi K2.6 vs Sonnet 4.6 (wolf-goat-cabbage) Les deux échouent Même test
Qwen 3.6 vs Opus "Not close to Opus, easily on par with Sonnet" Vibe test user
GPT vs Claude (censure/politique) Comportements différents, GPT "tells you to obey your AI overlord" Ad-hoc candor test, non-scientifique

Benchmarks en discussion

Benchmark Type Crédibilité perçue Modèles avantagés
SWE-bench / LiveCodeBench Coding Considérés standards par la communauté ("pretty standard benchmarks") Kimi K2.6 selon éditeur
HLE (Humanity's Last Exam) Généraliste Accès restreint sur HuggingFace pour éviter le data leakage dans l'entraînement — crédibilité jugée correcte Non spécifié dans les comments
gertlabs.com one-shot coding Coding Crédible (benchmark indépendant, fréquemment cité) K2.6 > GLM 5.1 > K2.5
gertlabs.com agentic coding Coding En cours de collecte, biais possible selon langage (Rust vs Python) Codex en Rust, Opus en TypeScript
aibenchy.com Généraliste Indépendant, cité une fois K2.6 "légèrement moins intelligent que SOTAs"
Benchmarks éditeur Kimi Coding + général Forte méfiance : "model publisher chooses their benchmarks, bias here" / "benchmarks can be gamed by all big model labs" K2.6 (coding+vision), Opus (raisonnement)
SVG clock benchmark (clocks.brianmoore.com) Coding/Vision Informel, ludique — Goodhart's Law invoqué contre ce type de benchmarks Kimi, Qwen, DeepSeek
Pelican-on-bike SVG Vision/créativité Très controversé : jugé "spam de bas qualité" par certains, défendu comme mesure de généralisation par d'autres K2 (premier K2 était "best creative writer by some distance")

Note transversale : La communauté HN exprime une méfiance généralisée envers les self-reported benchmarks des labs, citant le biais de sélection (les labs choisissent les benchmarks où ils brillent) et le risque de data contamination. La demande pour des benchmarks indépendants continus (comme gertlabs ou aibenchy) est forte, avec reconnaissance que même ceux-ci sont limités par les langages/tâches couverts.

Quitter le mode Zen