
L’engagement de Microsoft envers le patrimoine culturel européen à l’ère de l’IA
Dans une annonce historique faite à Paris, Microsoft a lancé deux initiatives majeures visant à préserver le riche patrimoine linguistique et culturel de l’Europe, tout en renforçant la position du continent dans un paysage de l’IA en rapide évolution. Ces efforts s’appuient sur les précédents engagements numériques européens de l’entreprise, axés sur le développement de l’IA et des infrastructures cloud, le renforcement de la confidentialité des données, l’amélioration de la cyber-résilience et le renforcement de la compétitivité numérique de l’Europe. Ces nouvelles initiatives visent à rendre les langues et les patrimoines culturels européens plus accessibles en ligne et à garantir leur bonne représentation dans les grands modèles linguistiques (LLM).
L’importance de la diversité linguistique de l’Europe
L’Europe compte plus de 200 langues et une histoire culturelle millénaire, fondement de l’expression créative et des activités économiques. Cette diversité linguistique favorise non seulement la communication, mais aussi l’innovation et les échanges commerciaux. Cependant, alors qu’Internet est de plus en plus dominé par des contenus en anglais, reflétant largement les points de vue américains, on craint de plus en plus que la richesse culturelle et les intérêts commerciaux de l’Europe soient négligés dans les bases de données qui forment les LLM modernes. Brad Smith, vice-président et président de Microsoft, a souligné cette préoccupation en déclarant :
« Une IA qui ne comprend pas les langues, l’histoire et les valeurs de l’Europe ne peut pas servir pleinement sa population, ses entreprises ou son avenir.»
Mettre en évidence la disparité des modèles de langage de l’IA
Un exemple frappant de ce déséquilibre linguistique est illustré par les performances de Llama 3.1, un modèle open source qui affiche un écart de performance de plus de 15 points en grec et de plus de 25 points en letton par rapport à l’anglais. Cela témoigne d’une disparité significative : le modèle excelle en anglais, mais est moins performant dans de nombreuses langues moins représentées ; un problème récurrent dans les principaux benchmarks LLM.
Stratégie de Microsoft pour le développement d’ensembles de données multilingues
Pour relever ce défi, Microsoft prévoit de renforcer ses centres d’innovation basés à Strasbourg, en France. Ces centres se concentreront sur le développement et la conservation de jeux de données multilingues utilisant Microsoft Azure. Des collaborations avec des institutions culturelles, des partenaires universitaires et des entreprises technologiques de toute l’Europe viseront à élargir la disponibilité des données d’apprentissage pour dix langues sous-représentées, dont l’estonien, l’alsacien, le slovaque, le grec et le maltais.
Par ailleurs, Microsoft a lancé un appel à propositions pour collecter des textes numériques, des transcriptions et d’autres ressources utiles au développement de l’IA.À compter du 1er septembre 2025, les candidats intéressés pourront solliciter des subventions offrant des crédits Azure ainsi qu’un support technique et d’ingénierie via le site web du laboratoire AI for Good.
Revitaliser le patrimoine culturel avec Culture AI
Cet automne, Microsoft étendra également son programme Culture AI avec un projet ambitieux visant à créer une réplique numérique précise de l’emblématique cathédrale Notre-Dame de Paris. En partenariat avec le ministère français de la Culture et Iconem, expert en numérisation du patrimoine, cette initiative vise à capturer minutieusement les détails de cet édifice gothique historique, érigé il y a 862 ans. Les précédentes initiatives Culture AI ont permis de préserver numériquement des sites importants comme l’Olympe en Grèce, le Mont-Saint-Michel en France, la basilique Saint-Pierre de Rome et les plages du débarquement allié en Normandie.
L’autonomisation grâce à la localisation
Ces initiatives s’appuient sur la vaste expérience de Microsoft en localisation, qui s’étend sur plus de quatre décennies. Windows prend actuellement en charge plus de 90 langues, intégrant toutes les langues officielles de l’Union européenne et plusieurs dialectes régionaux comme le basque, le catalan, le galicien, le luxembourgeois et le valencien. De plus, Microsoft 365 propose des interfaces Office dans plus de 30 langues européennes. En intégrant les langues et les richesses culturelles européennes à ses services d’IA et de cloud, Microsoft aspire à protéger le patrimoine culturel du continent tout en donnant les moyens à ses entreprises et à ses citoyens à l’ère du numérique.
Il est important de noter que l’entreprise affirme que ces efforts sont de nature purement solidaire, visant à fournir des données ouvertes, des outils et une expertise plutôt que des ressources propriétaires.
Laisser un commentaire