La production et l’utilisation des données sur le développement se sont considérablement modifiées ces vingt dernières années. La transition des dossiers papier vers des formats numériques a rendu les données plus accessibles et plus faciles à partager. Par ailleurs, le mouvement de libre accès aux données a nettement amélioré la disponibilité des données gouvernementales et institutionnelles, ce qui a eu pour effet de favoriser les analyses, la transparence et l’innovation. Enfin, les avancées majeures dans les domaines du big data et des sciences des données ont permis d’accroître encore le volume et la diversité des informations qui guident les politiques de développement.
Avec les progrès rapides de l’intelligence artificielle (IA), nous arrivons aujourd’hui à un nouveau tournant : l’évolution vers des données sur le développement prêtes pour l’IA, à savoir des données facilement trouvables, compréhensibles, accessibles et utilisables à la fois par les humains et par les applications d’IA.
Pourquoi des données prêtes pour l’IA ?
L’IA, en particulier les grands modèles de langage, transforme complètement la façon dont on interagit avec les données. Tous les utilisateurs, qu’ils soient débutants ou chevronnés, sont désormais en mesure de poser des questions complexes en langage naturel à des chatbots. Et ils s’attendent à ce que ceux-ci trouvent, interprètent et présentent rapidement des informations basées sur des données, sous forme de réponses brèves et précises.
Pour que cette évolution soit couronnée de succès, les systèmes d’IA doivent être performants. Cela signifie que les données auxquelles ces systèmes accèdent et qu’ils interprètent doivent d’abord être évaluées, validées, structurées, réglementées et partagées de manière à permettre une utilisation responsable et efficace de l’IA. En résumé, les données doivent être « prêtes pour l’IA ».
Cette évolution ne se substitue pas aux avancées antérieures, aux concepts de base ou aux normes, tels que les principes fondamentaux de la statistique officielle, les cadres de libre accès aux données ou les principes FAIR (Facilement trouvable, Accessible, Interopérable et Réutilisable), mais au contraire elle s’y adosse. En élargissant les fondations et les normes établies, les données prêtes pour l’IA impliquent que les données sur le développement soient continuellement ouvertes, accessibles et réutilisables, tout en garantissant qu’elles soient systématiquement organisées et bien documentées, et ce pour faciliter une utilisation transparente par les personnes et les systèmes d’IA. Assurer la préparation à l’IA peut ainsi rapprocher les données sur le développement des décisions qu’elles orientent. Cela favorise de meilleures politiques, des innovations plus rapides et la diffusion plus large des connaissances sur le développement La Banque mondiale, dans le cadre de sa volonté de devenir une « banque des données » plus grande et meilleure, s’efforce déjà de faire en sorte que cela devienne réalité, en partenariat avec les pays partenaires et la communauté mondiale du développement.
Les arguments en faveur de données prêtes pour l’IA
L’IA générative s’est imposée comme une interface clé pour les personnes à la recherche d’informations, y compris sur des sujets liés au développement. Des plateformes telles que AI Overviews de Google, Bing de Microsoft, Perplexity.AI et ChatGPT d’OpenAI parcourent l’internet et combinent différentes sources d’information pour produire des réponses aux questions des utilisateurs. Le problème, bien sûr, c’est que les réponses de l’IA ne sont valables que dans la mesure où les données qui les sous-tendent sont fiables. En réalité, ces systèmes s’appuient souvent sur le contenu général d’internet (y compris des sources non validées) ou sur les résultats de recherches sur le web, plutôt que de donner la priorité à des sources de données qui font autorité, comme la Banque mondiale ou les bureaux nationaux de statistiques.
Étant donné que les systèmes d’IA actuels sélectionnent souvent des sources de données sur le développement peu pertinentes, les utilisateurs obtiennent fréquemment des réponses obsolètes ou incorrectes, même lorsque des informations exactes sont par ailleurs disponibles.
Cela pose problème, car la plupart des réponses de l’IA ressemblent à des informations fiables, même quand elles relèvent de l’hallucination.
Il est important de souligner que, pourtant, les données sur le développement de grande qualité et faisant autorité ne sont pas rares. En d’autres termes, les outils d’IA ne devraient pas s’appuyer sur des sources de données peu fiables pour produire des réponses à des requêtes portant sur des sujets liés au développement. Ce qui fait défaut, c’est un cadre normalisé et une infrastructure robuste pour permettre aux outils d’IA de trouver, d’accéder et d’utiliser de manière cohérente des données sur le développement fiable provenant de sources dignes de confiance afin de fournir des réponses exactes aux questions des utilisateurs.
Les données sur le développement prêtes pour l’IA peuvent aider à remédier à ce problème d’intégrité de l’information. En effet, il est possible d’assurer un accès fluide de l’IA à des données fiables sur le développement et leur utilisation, cela passe par l’adoption de protocoles et de normes d’interopérabilité par les gouvernements, les organisations internationales et le secteur privé. Cette démarche contribuera à éclairer des décisions fondées sur des données probantes, à améliorer l’accès du public à des informations valides et à susciter la confiance dans les sources de données et les statistiques sur le développement.
(Source Banque Mondiale)