IREX - Scoring des LLMs open source
Le scoring en Intelligence Artificielle est une approche méthodique qui permet d'évaluer et de comparer différents modèles ou solutions en se basant sur des critères objectifs et mesurables.
1. Introduction
L’essor des grands modèles de langage (LLMs) a multiplié les solutions open source (Apertus, LLaMA, Mistral, Falcon, etc.). Comparer ces modèles nécessite une méthode objective car les décisions basées uniquement sur l'intuition ou sur un seul benchmark sont risquées. Nous proposons ici une méthode de scoring multicritère qui permet de quantifier et classer des LLMs selon des critères techniques et d'ouverture.
2. La fonction de scoring
Le score global d’un LLM est calculé comme une somme pondérée de scores normalisés :
Chaque critère numérique est normalisé par rapport au maximum observé :
Les poids (poidsi) reflètent l'importance relative de chaque critère et sont choisis par l'utilisateur ; la somme des poids doit être égale à 1. Le score final est borné entre 0 et 1, ce qui facilite l'interprétation et la comparaison.
3. Critères retenus
Pour évaluer des LLMs open source, nous séparons les critères en deux familles :
a) Critères techniques
- Performance (Perf) : résultats sur benchmarks (MMLU, GSM8K, etc.).
- Vitesse (Speed) : tokens générés par seconde (sur hardware comparable).
- Mémoire (Memory) : efficacité VRAM/RAM (optimisation & quantization).
- Adaptabilité : facilité de fine-tuning (LoRA, PEFT), quantization, compatibilité outils.
b) Critères d’ouverture et d’usage
Nous décomposons l’ouverture en quatre dimensions distinctes, c’est essentiel pour estimer la reproductibilité :
- Ouverture du code : disponibilité du code d'entraînement et scripts.
- Ouverture des poids (weights) : accès aux poids complets et possibilité de les réutiliser.
- Ouverture des données d'entraînement : transparence sur les datasets, licences de données.
- Ouverture du modèle : documentation complète, description de l'architecture et des hyperparamètres.
Autres critères : Licence (Apache/MIT vs. licences restreintes) et Facilité d'utilisation (docs, exemples, intégrations).
4. Mise en œuvre pratique

Visualisation de la fonction de scoring appliquée aux différents critères d'évaluation
5. Résultats
Ces résultats sont issus de l'éxecution du programme python ci dessus :

Scores finaux obtenus par chaque solution selon notre méthodologie
6. Discussion
Forces
- Approche objective et reproductible.
- Pondérations personnalisables: utile selon le cas d'usage (production, recherche, éducation).
- Transparence : séparation fine de l'ouverture (code, poids, données, modèle).
Limites
- Dépendance aux choix de benchmarks et à la qualité des mesures.
- Certaines métriques qualitatives (facilité, communauté) peuvent rester subjectives.
- La normalisation par maximum peut avantager ou pénaliser fortement les extrêmes ; il est possible d'utiliser des alternatives (z-score, min-max avec percentiles).
7. Conclusion
Le scoring proposé offre un cadre pratique et transparent pour comparer des LLMs open source. En séparant l'ouverture en quatre dimensions distinctes, il devient possible d'estimer précisément la reproductibilité, la transparence et la maturité d'un modèle. Cette méthodologie est adaptée aux décideurs techniques, chercheurs et équipes produits qui doivent choisir un modèle en fonction d’exigences techniques et de gouvernance des données.
No comments yet. Start a new discussion.