L’Université Harvard et Google ont annoncé une collaboration majeure visant à mettre à disposition un ensemble de données massif pour l’entraînement de l’intelligence artificielle. Ce projet ambitieux prévoit de rendre accessibles un million de livres du domaine public, couvrant une large gamme de genres, de langues et d’auteurs classiques tels que Dickens, Dante et Shakespeare.
Un trésor littéraire au service de l’innovation technologique
Cette initiative, baptisée Institutional Data Initiative (IDI), vise à créer un « conduit fiable de données légales pour l’IA ». Les ouvrages inclus dans cet ensemble de données proviennent du projet de numérisation de longue date de Google, Google Books. L’objectif est de démocratiser l’accès à ces ressources précieuses, permettant ainsi aux laboratoires de recherche et aux startups spécialisées en IA de bénéficier de données d’entraînement de haute qualité.
Greg Leppert, directeur exécutif de l’IDI, souligne que ce projet est conçu pour « égaliser les chances » en ouvrant l’accès à un ensemble de données aussi vaste à tous ceux qui souhaitent entraîner leurs modèles de langage.
Un projet soutenu par des géants de la tech
Au-delà de la collaboration entre Harvard et Google, le projet bénéficie également du soutien financier de Microsoft et OpenAI. Cette implication de grands acteurs technologiques témoigne de l’importance stratégique de l’accès aux données pour le développement de l’IA.
Bien que la date exacte de mise à disposition de cet ensemble de données n’ait pas encore été annoncée, cette initiative marque une étape importante dans la démocratisation de l’IA. En rendant accessibles ces ressources littéraires du domaine public, Harvard et ses partenaires ouvrent de nouvelles perspectives pour la recherche et l’innovation dans le domaine de l’intelligence artificielle.