Si vous utilisez l’IA rédactionnelle ou souhaitez le faire, vous pourriez aimer savoir si Google (ou d’autres moteurs de recherche) est capable de détecter l’origine de ce contenu.
On pense que Google récompense tout d’abord les sites affichant une grande quantité de contenu en raison de l’investissement que cela représente en temps et en argent. Il faut au moins 2 heures pour écrire 1 000 mots. Aujourd’hui, nous pouvons générer un document de 1 000 mots en quelques secondes. Google peut, soit cesser de récompenser le contenu, soit trouver un moyen de savoir si un contenu a été créé avec ou sans investissement.
L’importance de pouvoir détecter le contenu produit par l’IA va bien évidemment au-delà du référencement et de la rédaction de contenu. Trouver une solution pour la détection de faux contenus est une priorité importante pour la sécurité d’Internet, du journalisme, et de l’éducation aussi.
Google affirme que cela ne va pas pénaliser l’IA
Selon les Conseils de la recherche Google concernant le contenu généré par IA , publiés en 2023, « l’utilisation appropriée de l’IA ou de l’automatisation n’est pas contraire à nos consignes ». Plutôt que de pénaliser le contenu généré par l’IA, Google utilise des algorithmes pour évaluer la qualité du contenu grâce à des systèmes comme :
- Reviews qui récompense les avis produit de qualité qui fournissent une analyse éclairée et une recherche originale
- Helpful Content – un système désormais intégré au Core de l’algorithme
- Utilisation abusive de contenu à grande échelle – les signaux pour détecter et supprimer les spam
En ce qui concerne les spams, Google dit que la production à grande échelle de contenu de mauvaise qualité, “que celui-ci ait été créé automatiquement, par l’homme, ou par une combinaison des deux”, est contre sa politique. Ceci s’applique à tous les signaux de qualité. Google va détecter et pénaliser le contenu, pas la méthode de production.
En commentant la mise à jour Core Update de mars 2024, Roger Montti contredit Google dans un article publié sur le Search Engine Journal (en anglais). Il affirme que « Google pénalise le contenu généré par l’IA » simplement parce que « l’IA ne peut pas atteindre les seuils de qualité de Google » tel que cela est décrit dans les systèmes Reviews et Helpful Content. Pour Montti, le contenu généré par l’IA manque toujours d’expertise, d’expérience pratique, et d’originalité, à moins qu’il ne soit ajouté à la source. Il suggère que les producteurs de contenu devraient collaborer avec l’IA plutôt que de s’attendre à ce qu’elles fassent tout le travail à leur place.
Outils de détection de l’IA
L’étude universitaire « RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors » (un benchmark pour une évaluation complète des détecteurs de textes générés par des machines), publiée en anglais en juin 2024, compare 12 détecteurs d’IA ultramodernes dont 4 solutions commerciales :
- Originality – https://originality.ai/
- ZeroGPT – https://www.zerogpt.com/
- GPTZero – https://gptzero.me/
- Winston – https://gowinston.ai/
Même si les tests montrent que les détecteurs obtiennent, la plupart du temps, des résultats corrects, l’étude conclut que « les détecteurs ne sont pas assez robustes pour un déploiement massif ». Comme Bruce Clay le mentionne dans How to survive the search results when you’re using AI tools for content (Comment contourner les résultats d’une recherche lorsque nous utilisons les outils d’IA pour le contenu), il existe des moyens de contourner la détection de l’IA, qui sont également identifiés dans l’étude.
« Les détecteurs ne sont pas encore assez robustes pour un déploiement large ou pour une utilisation qui comporte des risques » – RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors
Dogwan Lee, directeur du laboratoire Information Knowledge and wEb (PIKE) à l’Université d’État de Pennsylvanie déclare que « la meilleure solution d’IA que nous ayons mise au point, analyse le texte et donne une réponse fiable — avec 85 à 95% de précision — que le contenu ait été écrit par la main humaine ou l’IA ». Comparé aux humains qui ne peuvent détecter le texte généré par l’IA qu’à 53 % du temps. Cependant, il admet aussi que les détecteurs jouent au chat et à la souris avec les constructeurs d’intelligence artificielle étant donné que les logiciels de génération d’IA sont de plus en plus sophistiqués.
Nous avons testé les articles que nous avons produits en utilisant l’IA au chapitre précédent « Test des logiciels générateurs de texte pour la SEO », en utilisant certains de ces outils, et les résultats ont été concluants. Ces outils sont très bons en détection de contenu produit par l’IA (dans ce cas, production d’articles en un clic sans post-édition).
GPTZero vous permet de vérifier 10 000 mots par mois gratuitement et les abonnements sont disponibles à partir de 10 $US par mois.
Commençons par le texte écrit pour cet ebook, GPTZero a classé correctement le texte, comme ayant été rédigé par la main humaine, avec seulement 1 % de probabilité que le texte soit généré par l’IA.

Le texte peut être analysé en le copiant et en le collant à partir d’un autre document, mais vous pouvez aussi importer des fichiers. Nous avons importé les 15 documents générés par nos tests, et nous avons obtenu 13 résultats avant d’atteindre la limite des 10 000 mots. 12 documents ont été considérés comme produits par l’IA, avec une probabilité de plus de 50 %. Cependant, la recette de naan écrite par Microsoft Copilot, n’a obtenu de 35 % de probabilité d’avoir été écrite par l’IA.

Nous sommes ensuite passés à l’outil ZeroGPT, (dont la similarité de nom est troublante) et avons effectué les mêmes tests. La version gratuite, avec annonces publicitaires, permet d’analyser jusqu’à 15 000 caractères et semble n’avoir aucune limite sur le nombre de documents analysables par mois. L’outil a réussi à détecter tous les documents générés par l’IA bien qu’un article écrit par Google Gemini ait obtenu une probabilité de seulement 45,72 % attribuable à l’IA. Le contenu écrit par la main humaine a obtenu un 0 % de probabilité d’écriture par l’IA.


De toute évidence, nos tests ne sont pas aussi approfondis que ceux effectués par RAID, mais ils semblent prouver que la rédaction d’articles en un clic à l’aide de l’IA peut être détectée avec suffisamment de précision pour être utilisée en tant que signal par les moteurs de recherche.

Vous pourriez vouloir utiliser les détecteurs d’IA pour l’évaluation de votre contenu actuel, ce qui peut inclure la production de contenu que vous avez externalisé et pour lequel vous avez payé. Cependant, avant d’agir sur les résultats que vous obtenez, ayez à l’esprit la déclaration relative aux principes d’éthique de l’étude RAID. « La détection d’un texte généré par l’IA porte souvent à proférer des accusations et peut faire l’objet de sanctions punitives contre la partie accusée. Cela peut porter préjudice lorsque les détecteurs disent vrais, mais surtout s’ils se sont trompés. Ceci est particulièrement problématique d’après les travaux récents de Liang et al. (2023c), qui mentionnent que les détecteurs sont faussés pour les auteurs qui ne sont pas de langue maternelle anglaise. Nos résultats vont dans le même sens que cette affirmation et suggèrent que le problème de faux positifs demeure irrésolu. C’est pourquoi, nous sommes opposés à l’utilisation de détecteurs pour les sanctions disciplinaires ou punitives, et à notre avis les détecteurs mal réglés causent plus de problèmes qu’ils n’en résolvent ».
Watermark numérique
Plus la technologie IA se développe, plus la pression monte pour les sociétés d’IA d’aider les utilisateurs à identifier des faux contenus. Ceci s’applique aux vidéos, aux images, et aux textes. En mai 2024, Google a annoncé qu’il avait ajouté un watermark numérique au texte généré par Gemini en utilisant SynthID (article en anglais) ainsi qu’aux images et aux vidéos produites par la technologie Google. Le watermark est aussi connu sur le nom tatouage numérique en français.

Le watermark (caché dans le texte par une séquence de mots) permet à d’autres logiciels, tels que les navigateurs, les logiciels d’e-mail ou les moteurs de recherche d’identifier le contenu généré par l’IA en utilisant la détection SynthID. Des logiciels similaires ont déjà été ajoutés à TikTok et l’on suppose que OpenAI a déjà ajouté des watermarks numériques à ChatGPT en 2023 (lien vers un article en anglais de Matt Popovic qui fournit des astuces pour éviter le watermark d’OpenAI).
Google dit que les watermark ne sont pas infaillibles, mais nous les considérons plutôt comme un outil supplémentaire au-dessus des détecteurs d’IA, qui permettrait aux moteurs de recherche de prendre en compte l’utilisation d’IA comme facteur de classement. Contrairement aux détecteurs d’IA, les watermark numériques ne peuvent pas produire de faux positifs (texte écrit par l’humain mais classé en tant que texte généré par l’IA).
Ce qui signifie que les moteurs de recherche et les navigateurs peuvent ajouter en toute sécurité des avertissements sur les pages web sur lesquelles les watermarks numériques identifient du contenu généré par l’IA (texte, images ou vidéos). Ces avertissements décourageront certainement l’utilisation de l’IA pour produire des articles en masse.