Suivi des performances des LLMs
Suivi des indicateurs rendant compte des performances des meilleurs LLM. Les résultats des benchmarks utilisés sont disponibles sur le site Artifical Analysis.
Modèles sélectionnés
Les modèles sélectionnés sont représentatifs des meilleurs performances au moment de leurs publications, on se limite à trois fournisseurs : OpenAI, Google et Anthropic.
Le score général (Artificial Analysis Intelligence Index) pondère les autres indicateurs, il donne une vue d’ensemble de “l’intelligence” des LLMs.
Évolution des performances des LLMs dans le temps
Les indicateurs sont regroupés par famille :
- Humain : résultats aux examens académiques, raisonnement scientifique, raisonnement en physique et tâches du monde réel
- Machine : taille des données d’entrée manipulables, fidélité aux instructions, capacité à voir des images
- Code : compétences en programmation et en tâches techniques
- Omniscience : capacité à connaître les informations et à ne pas raconter n’importe quoi
On constate une progression linéaire depuis 2024, mais des paliers commencent à se dessiner.
Comparaison des modèles
Ces comparaisons sont utiles lorsqu’il s’agit de choisir les modèles à intégrer dans des systèmes plus complexes. Le choix repose alors sur un équilibre entre capacités, vitesse et coûts.
Détails sur les Indicateurs utilisés
Indicateurs “Machine”
- IFBench (Instruction Following) : évalue si le modèle sait suivre précisément des consignes en un seul tour, par exemple sur le format, le comptage ou la transformation de phrases.
- AA-LCR (Long Context Reasoning) : mesure la capacité à travailler correctement à partir de très longs documents, autour de 100k tokens par question.
- MMMU Pro (Visual Reasoning) : évalue le raisonnement sur des contenus visuels, via des questions à choix multiple.
Indicateurs “Humain”
- Humanity’s Last Exam (Reasoning & Knowledge) : benchmark académique très difficile qui teste le raisonnement général et les connaissances avancées sur des questions textuelles en maths, sciences humaines et sciences naturelles.
- GDPval-AA (Agentic Real-World Work Tasks, (ELO-500)/2000) : mesure la capacité d’un modèle à faire de vraies tâches de travail utiles économiquement, en produisant des fichiers livrables ; le score affiché dans l’index est une version normalisée d’un score ELO pour rendre les modèles comparables.
- GPQA Diamond (Scientific Reasoning) : teste le raisonnement scientifique de haut niveau sur des questions de bio, physique et chimie, choisies pour être particulièrement discriminantes.
- CritPt (Physics Reasoning) : benchmark de raisonnement en physique de niveau recherche, avec des problèmes avancés à résoudre sous forme numérique, symbolique ou en code.
Indicateurs “Omniscience”
- AA-Omniscience Accuracy (Knowledge) : c’est la partie du benchmark qui mesure simplement à quelle fréquence le modèle donne la bonne réponse sur des questions de connaissance.
- AA-Omniscience Non-Hallucination Rate : mesure à quelle fréquence le modèle n’invente pas ; autrement dit, plus ce score est élevé, moins le modèle hallucine.
Indicateurs “Ingénieur Informaticien”
- SciCode (Coding) : mesure la capacité à écrire du code Python pour résoudre des problèmes de calcul scientifique.
- Terminal-Bench Hard (Agentic Coding & Terminal Use) : teste si le modèle sait résoudre des tâches difficiles dans un terminal, comme du dev, de l’admin système ou d’autres tâches techniques, avec réussite seulement si les tests finaux passent.
- τ²-Bench Telecom (Agentic Tool Use) : évalue si un agent conversationnel sait utiliser des outils et piloter une résolution de problème télécoms dans un scénario simulé agent-utilisateur, avec succès jugé sur l’état final du monde.