top of page
Rechercher

Wikipédia dit stop au scraping massif : une nouvelle ère pour l’IA ?

  • sofiataalibi
  • 22 avr.
  • 1 min de lecture

Dernière mise à jour : 23 avr.

Wikipédia vient de franchir un cap en publiant un jeu de données structuré sur Kaggle, à destination des chercheurs et développeurs en intelligence artificielle. Objectif : faciliter l’entraînement des modèles tout en allégeant la pression sur ses serveurs.

Pourquoi ? Parce que 65 % du trafic de Wikipédia provient aujourd’hui de bots qui pratiquent le scraping. Mais… le scraping, c’est quoi exactement ?

Le web scraping est une technique qui permet d’extraire automatiquement du contenu depuis des sites web. Dans le cas de Wikipédia, des bots parcourent les pages pour collecter des données utiles à l’entraînement de modèles de langage comme les LLM (Large Language Models). Cependant, ce processus génère un trafic massif, consomme énormément de bande passante, et peut fragiliser les infrastructures des sites concernés.

La solution proposée par Wikipédia ?

Un accès encadré, propre et documenté à ses données via Kaggle. Ce jeu de données est actualisé tous les mois, disponible en JSON, et couvre notamment les versions anglaise et française. Une manière plus responsable de faire avancer l’IA, en respectant à la fois les sources et les ressources.

 
 
 

Comments


bottom of page