L’Ina propose désormais au grand public une mine de données sur les médias, via une plateforme alimentée par l’IA

125

Quelles sont les personnalités les plus citées sur les chaînes info? Quel temps de parole entre hommes et femmes à la radio? L’Ina offre désormais au grand public une mine de données sur les médias, via une plateforme alimentée par l’intelligence artificielle (IA). Dévoilé mercredi par l’Institut national de l’audiovisuel, le site gratuit data.ina.fr propose des cartes et des graphiques interactifs grâce à l’analyse de 700.000 heures de contenus, via des outils d’intelligence artificielle. Couvrant la période du 1er janvier 2019 au 30 juin 2024 sur une vingtaine de télés et radios, ce site dresse des tendances statistiques à travers quatre thématiques (personnalités, femmes-hommes, mots, lieux) et trois périmètres (JT, chaînes d’info en continu, radios). Mis à jour deux fois par an, il accueillera en janvier les données les plus récentes et remontera jusqu’à l’année 2015, a indiqué l’Ina, qui archive quotidiennement les images et sons des télés et radios. De quoi «porter un regard nouveau sur les médias», a fait valoir son président, Laurent Vallet, lors d’une présentation à la presse. «Construite au croisement des missions» (archivage, recherche, création, innovation…) de l’Ina, qui fait partie du service public et dispose de 27 millions d’heures d’archives, cette plateforme s’adresse aussi bien aux journalistes et aux chercheurs qu’au grand public, a ajouté le dirigeant. Les 700.000 heures de contenus alimentant le site n’étant «pas analysables à l’échelle humaine», l’Ina a dû recourir à l’intelligence artificielle pour la transcription, l’extraction de mots ou de noms, et le classement des interlocuteurs selon leur sexe, a expliqué son directeur éditorial, Antoine Bayet. Divers contrôles ont été effectués avant la mise en ligne des résultats sur le site, transparent quant aux limites de l’IA, qui y fait l’objet d’avertissements. Par exemple, Donald Trump, deuxième du Top 10 des personnalités les plus citées dans les JT du soir de 2019 à 2024, est accolé à un point d’exclamation. En cliquant dessus, on apprend notamment que l’IA confond parfois l’ancien président américain avec d’autres membres de sa famille, ce qui peut entraîner sa «sur-représentativité» dans les résultats. Au-delà de sa mission première d’archivage, l’Ina s’est transformé ces dernières années en média à part entière. Cela s’est traduit par une politique très active sur les réseaux sociaux, où il vise 2 milliards de vidéos vues cette année, la création d’émissions de télé et chaînes YouTube, et le lancement en 2020 de l’offre payante de streaming Madelen.