Notebookcheck Logo

Le plus grand ensemble de données d'images d'entraînement à l'IA est mis hors ligne après la découverte de matériel illicite inquiétant

L'ensemble de données LAION-5B contient plus de 5,8 milliards de paires image-texte (Source de l'image : LAION - édité)
L'ensemble de données LAION-5B contient plus de 5,8 milliards de paires image-texte (Source de l'image : LAION - édité)
Une étude de Stanford a découvert des milliers d'images explicites d'abus d'enfants dans LAION-5B, le plus grand ensemble de données d'images pour l'entraînement de modèles d'IA, y compris Stable Diffusion. À la suite de cette révélation, LAION a temporairement mis ses ensembles de données hors ligne pour s'assurer qu'ils sont sûrs avant de les republier.

Une étude publiée par le Stanford Internet Observatory a fait une découverte troublante par le Stanford Internet Observatory a fait une découverte troublante : LAION-5B, le plus grand ensemble de données d'images utilisé pour l'entraînement à la génération d'images par l'IA, est une source d'erreur Modèles de génération d'images par l'IA d'images, contient 3 226 images suspectées d'être des images d'abus sexuel d'enfants (CSAM). LAION a depuis retiré son ensemble de données de l'accès public, jusqu'à ce qu'elle puisse s'assurer qu'elles sont exemptes de tout contenu dangereux.

LAION-5B, un ensemble de données en libre accès composé de plus de 5,8 milliards de paires d'URL d'images en ligne et de légendes correspondantes, est utilisé pour former des modèles d'IA, notamment le très populaire modèle de la Diffusion stable. Il a été créé en utilisant Common Crawl pour rechercher un large éventail d'images sur l'internet.

David Thiel et l'équipe de chercheurs de Stanford à l'origine de l'étude ont commencé par filtrer l'ensemble de données à l'aide des classificateurs NSFW de LAION, puis se sont appuyés sur PhotoDNAun outil couramment utilisé pour la modération de contenu dans ce contexte. La consultation de CSAM étant illégale, même à des fins de recherche, l'équipe a utilisé le hachage perceptuel, qui crée une signature numérique unique pour chaque image et utilise cette signature pour la faire correspondre à une image test afin de vérifier si elle est identique ou similaire. L'équipe a ensuite envoyé les "correspondances certaines" au Centre canadien de protection de l'enfance pour qu'il les valide.

À la suite de la publication de l'étude, un porte-parole de Stable Diffusion a déclaré à 404 Media que l'entreprise avait mis en place de nombreux filtres internes qui permettraient non seulement d'éliminer CSAM et d'autres contenus illégaux et offensants des données utilisées pour la formation, mais aussi de s'assurer que les messages d'entrée et les images générées par le modèle d'intelligence artificielle sont nettoyés.

En vertu de la loi fédérale américaine, il est illégal de posséder et de transmettre non seulement du CSAM, mais aussi "des films et des bandes vidéo non développés, ainsi que des données stockées électroniquement qui peuvent être converties en une image visuelle". Toutefois, étant donné que les ensembles de données tels que le LAION-5B ne contiennent que des URL et non les images elles-mêmes, leur légalité exacte n'est pas claire. Le problème général est encore exacerbé par le fait que le CSAM généré par l'IA est difficile à distinguer du CSAM réel, et qu'il est en augmentation. Même si 3200 images sur 5 milliards peuvent sembler insignifiantes, l'influence potentielle de ces données d'entraînement "contaminées" sur les résultats des modèles génératifs d'IA ne peut être ignorée.

L'étude publiée par David Thiel et son équipe met en lumière l'une des plus inquiétantes plus inquiétantes de la prolifération soudaine de l'IA. Trouver des solutions à ces préoccupations sera une tâche lente et difficile au cours des prochaines années, impliquant à parts égales le législateur, les forces de l'ordre, l'industrie technologique, les universitaires et le grand public.

Please share our article, every link counts!
> Revues et rapports de ordinateurs portatifs et smartphones, ordiphones > Archives des nouvelles 2023 12 > Le plus grand ensemble de données d'images d'entraînement à l'IA est mis hors ligne après la découverte de matériel illicite inquiétant
Vishal Bhardwaj, 2023-12-23 (Update: 2023-12-23)