Les textes de ChatGPT sont détectables - le modèle reconnaît de manière fiable le plagiat par l'IA

L'IA peut faire beaucoup de choses, y compris du plagiat. (pixabay / geralt)

un programme de l'université du Kansas prétend pouvoir démasquer de manière fiable 99 % de tous les textes générés par l'IA. Il s'agit d'un progrès considérable par rapport aux tentatives précédentes visant à séparer automatiquement les textes créés artificiellement des textes humains.

Mario Petzold (traduit par Ninh Duy), Publié 11/08/2023 🇺🇸 🇩🇪 ...

AI Science

Les articles de ChatGPT doivent paraître aussi naturels que possible et s'inspirer de l'écriture humaine à laquelle l'IA a été entraînée. Il est donc difficile de distinguer un texte plagié d'une écriture réelle.

Les tentatives précédentes de détection automatique des textes générés par l'IA ont eu un taux de réussite bien inférieur à 50 % dans certains cas. Le taux de 99 % semble donc très différent et beaucoup plus prometteur.

Une équipe de l'université du Kansas, qui a publié ses résultats le 6 novembre 2023 à l'adresse sciencedirect.coma réussi à mettre au point un système capable de signaler de manière fiable les articles scientifiques créés artificiellement.

Un champ d'action étroit

Dans la configuration de test, des textes provenant de treize journaux scientifiques, tous traitant de chimie, ont été comparés à un total de 200 textes provenant soit de GPT-3.5, soit de GPT-4.

Selon les auteurs, 198 de ces textes ont été reconnus comme étant générés par l'IA, ce qui correspond à un taux de 99 %. Cette reconnaissance était basée sur 20 caractéristiques de texte telles que la longueur variable des phrases, l'occurrence typique de certains mots ou la ponctuation. En outre, l'entraînement a été effectué avec de nombreux textes scientifiques du domaine de la chimie.

La combinaison de la structure et de la langue classiques des textes scientifiques et l'accent mis sur un seul domaine sont à l'origine de la fiabilité du système.

En revanche, lors d'un autre test réalisé avec des articles provenant d'un site d'information, le détecteur a complètement échoué. Pratiquement aucun article créé artificiellement n'a été identifié comme tel.

Néanmoins, il semble prometteur qu'un taux de réussite aussi élevé puisse être atteint avec des outils tels que l'analyse de texte pour des domaines spécifiques.