Evaluer BLOOM en français - Machine Learning and Information Access
Communication Dans Un Congrès Année : 2024

Evaluer BLOOM en français

Résumé

The development of very large language models, capable of performing multipes tasks, implies to develop the necessary infrastructures to evaluate these models, ideally covering as many facets as possible. Numerous benchmarks have already been compiled for English, making it possible to precisely gauge their ability to process this language. In this paper, we present our own efforts to assemble a multi-task evaluation set for French, which is then used to evaluate models from the Bloom family. Our results complement the main evaluation results for Bloom in English ; they suggest that the performance obtained in French and English are very similar, and even better when the amorces used for contextual inference are in the same language as the texts to analyze
Le développement de très grands modèles de langue, capables de traiter de multiples tâches, implique de développer les infrastructures requises pour évaluer ces modèles sous toutes leurs facettes. De nombreux ensembles de données de référence ont ainsi été rassemblés pour l’anglais, permettant d’apprécier en détail leur capacité à traiter cette langue. Dans cet article, nous présentons nos efforts pour assembler un ensemble d’évaluation multi-tâche pour le français, qui est utilisé pour évaluer le modèle Bloom. Nos résultats complètent les évaluations de Bloom en anglais ; ils suggèrent que les performances pour le français et l’anglais sont très voisines, et encore meilleures lorsque les amorces utilisées pour l’inférence en contexte sont dans la même langue que les textes soumis à l’analyse.
Fichier principal
Vignette du fichier
Bloume_v3.pdf (286.47 Ko) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-04678039 , version 1 (26-08-2024)

Identifiants

  • HAL Id : hal-04678039 , version 1

Citer

Rachel Bawden, Hatim Bourfoune, Bertrand Cabot, Nathan Cassereau, Pierre Cornette, et al.. Evaluer BLOOM en français. Atelier sur l'évaluation des modèles génératifs (LLM) et challenge d'extraction d'information few-shot, Institut des sciences informatiques et de leurs interactions - CNRS Sciences informatiques [INS2I-CNRS], Jul 2024, Toulouse, France. ⟨hal-04678039⟩
9 Consultations
4 Téléchargements

Partager

More