IREX - Présentation et démonstration de TXT-AI pour la recherche intelligente dans la documentation IREX
Découvrez comment TXT-AI, un outil open-source d’intelligence artificielle, rend la recherche dans la documentation IREX plus rapide et plus intelligente.
1. Introduction
2. Présentation de TXT-AI
3. Concepts IA utilisés
4. Installation et configuration
5. Résultats obtenus
6. Limites et perspectives
7. Conclusion
8. Illustration vidéo
9. Voir aussi
1. Introduction
Dans le cadre de mon stage à l’Institut du Retour d’Expérience (IREX), j’ai travaillé sur l’amélioration de l’accès à la documentation technique à l’aide de l’intelligence artificielle. L’un des défis majeurs rencontrés au sein de l’institut concerne la recherche d’informations précises dans une base documentaire volumineuse, où les méthodes classiques par mots-clés montrent leurs limites.
Pour répondre à cette problématique, j’ai étudié et expérimenté TXT-AI, un outil open-source permettant de réaliser une recherche sémantique intelligente. Cet article présente la technologie, son fonctionnement, ainsi que sa mise en œuvre sur un échantillon de la documentation IREX.
2. Présentation de TXT-AI
TXT-AI est un framework open-source développé par NeuralMagic et écrit en Python. Il permet de construire des moteurs de recherche sémantique et des applications intelligentes capables de comprendre le sens des phrases, et non simplement les mots qu’elles contiennent.
TXT-AI repose sur les modèles de langage modernes (transformers) pour générer des embeddings — des représentations numériques du sens des textes. Grâce à ces embeddings, il devient possible de comparer des phrases entre elles selon leur signification, même si elles n’emploient pas les mêmes mots.
- Indexation intelligente de documents textuels
- Recherche sémantique basée sur la similarité de sens
- Résumé automatique de textes
- Clustering et analyse de similarité
- Compatibilité avec les modèles Hugging Face Transformers
3. Concepts IA utilisés dans TXT-AI
- Embeddings vectoriels : chaque document ou phrase est converti en un vecteur numérique capturant sa signification.
- Recherche sémantique : comparaison basée sur le sens des phrases plutôt que sur les mots exacts.
- TF-IDF hybride : pondération des mots selon leur fréquence et leur importance.
- Fuzzy matching : tolérance aux fautes et aux variations linguistiques.
- Résumé automatique : génération d’extraits de texte synthétiques grâce au NLP.
Grâce à ces principes, le moteur peut comprendre qu’une requête comme « comment créer un DSM » correspond à « procédure de mise en place d’un DSM », même si les mots diffèrent.
4. Installation et configuration
Installation
pip install txtai pypdf
Indexation du corpus documentaire
- Chargement de la documentation IREX au format PDF.
- Extraction automatique du texte page par page à l’aide de
pypdf. - Indexation des textes dans TXT-AI avec métadonnées (titre, numéro de page, lien vers le document).
- Sauvegarde de l’index IA pour accélérer les recherches futures.
Exemple d’exécution
# Recherche
results = embeddings.search("comment créer un DSM")
# Résumé IA
summary = summarizer(text, maxlength=2)
Chaque résultat inclut un lien ouvrant directement la page correspondante du PDF IREX :
Accueil.pdf#page=5.
Ainsi, l’utilisateur accède immédiatement à la section concernée dans le document.
5. Résultats obtenus
- Les résultats sont pertinents même en cas de fautes de frappe.
- Le moteur comprend le contexte sémantique des requêtes.
- Les résumés automatiques aident à évaluer rapidement la pertinence du contenu.
- L’ouverture directe du PDF à la page concernée améliore considérablement l’expérience utilisateur.
Requête : « comment créer un DSM »
→ Résultat : Page 5 — « Cette section décrit la création et la configuration d’un DSM… »
→ Résumé IA : Le document explique les étapes nécessaires à la mise en place d’un DSM et ses conditions d’exécution.
6. Limites et perspectives
Limites actuelles :
- Indexation manuelle nécessaire du corpus documentaire.
- Modèles d’embeddings légers, moins performants que les grands modèles de langage (LLM).
- Pas encore d’intégration native avec MediaWiki.
Perspectives d’évolution :
- Intégration directe de TXT-AI dans l’interface documentaire IREX.
- Ajout d’un module de chat IA pour les questions conversationnelles.
- Utilisation de modèles RAG (Retrieval-Augmented Generation) pour enrichir les réponses.
- Déploiement sur un serveur interne (Docker / Nginx) pour usage collectif.
7. Conclusion
L’expérimentation de TXT-AI au sein de l’IREX démontre le potentiel de l’intelligence artificielle pour faciliter la recherche d’informations dans les bases documentaires internes.
En combinant embeddings, recherche sémantique et génération de résumés automatiques, la documentation devient plus vivante, plus accessible et plus utile.
TXT-AI constitue une base solide pour la construction d’un futur moteur de recherche intelligent au service de la diffusion du savoir au sein de l’Institut.
8. Illustration vidéo
Une vidéo de démonstration montre le fonctionnement complet du moteur de recherche :
- Saisie d’une requête en langage naturel
- Affichage des résultats classés par pertinence
- Résumé IA des passages trouvés
- Ouverture du PDF à la page correspondante
Lien vers la vidéo : Voir la démonstration
No comments yet. Start a new discussion.