Blog / intelligence artificielle

IREX - Scoring des LLMs open source

Le scoring en Intelligence Artificielle est une approche méthodique qui permet d'évaluer et de comparer différents modèles ou solutions en se basant sur des critères objectifs et mesurables.

September 10, 2025 · 3 min read

Scoring des LLMs Open Source — Méthodologie

Sommaire

Introduction
Fonction de scoring
Critères retenus
Mise en œuvre pratique
Résultats
Discussion
Conclusion

1. Introduction

L’essor des grands modèles de langage (LLMs) a multiplié les solutions open source (Apertus, LLaMA, Mistral, Falcon, etc.). Comparer ces modèles nécessite une méthode objective car les décisions basées uniquement sur l'intuition ou sur un seul benchmark sont risquées. Nous proposons ici une méthode de scoring multicritère qui permet de quantifier et classer des LLMs selon des critères techniques et d'ouverture.

2. La fonction de scoring

Le score global d’un LLM est calculé comme une somme pondérée de scores normalisés :

Score(LLM) = ∑_i=1ⁿ poids_i × critère_i^norm

Chaque critère numérique est normalisé par rapport au maximum observé :

critère_i^norm = valeur_i / max(valeurs_i)

Les poids (poids_i) reflètent l'importance relative de chaque critère et sont choisis par l'utilisateur ; la somme des poids doit être égale à 1. Le score final est borné entre 0 et 1, ce qui facilite l'interprétation et la comparaison.

3. Critères retenus

Pour évaluer des LLMs open source, nous séparons les critères en deux familles :

a) Critères techniques

Performance (Perf) : résultats sur benchmarks (MMLU, GSM8K, etc.).
Vitesse (Speed) : tokens générés par seconde (sur hardware comparable).
Mémoire (Memory) : efficacité VRAM/RAM (optimisation & quantization).
Adaptabilité : facilité de fine-tuning (LoRA, PEFT), quantization, compatibilité outils.

b) Critères d’ouverture et d’usage

Nous décomposons l’ouverture en quatre dimensions distinctes, c’est essentiel pour estimer la reproductibilité :

Ouverture du code : disponibilité du code d'entraînement et scripts.
Ouverture des poids (weights) : accès aux poids complets et possibilité de les réutiliser.
Ouverture des données d'entraînement : transparence sur les datasets, licences de données.
Ouverture du modèle : documentation complète, description de l'architecture et des hyperparamètres.

Autres critères : Licence (Apache/MIT vs. licences restreintes) et Facilité d'utilisation (docs, exemples, intégrations).

4. Mise en œuvre pratique

Visualisation de la fonction de scoring appliquée aux différents critères d'évaluation

5. Résultats

Ces résultats sont issus de l'éxecution du programme python ci dessus :

Scores finaux obtenus par chaque solution selon notre méthodologie

6. Discussion

Forces

Approche objective et reproductible.
Pondérations personnalisables: utile selon le cas d'usage (production, recherche, éducation).
Transparence : séparation fine de l'ouverture (code, poids, données, modèle).

Limites

Dépendance aux choix de benchmarks et à la qualité des mesures.
Certaines métriques qualitatives (facilité, communauté) peuvent rester subjectives.
La normalisation par maximum peut avantager ou pénaliser fortement les extrêmes ; il est possible d'utiliser des alternatives (z-score, min-max avec percentiles).

7. Conclusion

Le scoring proposé offre un cadre pratique et transparent pour comparer des LLMs open source. En séparant l'ouverture en quatre dimensions distinctes, il devient possible d'estimer précisément la reproductibilité, la transparence et la maturité d'un modèle. Cette méthodologie est adaptée aux décideurs techniques, chercheurs et équipes produits qui doivent choisir un modèle en fonction d’exigences techniques et de gouvernance des données.