Démasquer le Mystère : Les Moteurs de Recherche Peuvent-ils Détecter le Contenu Généré par l'IA ?
L'année passée a été témoin d'une croissance incroyable des outils d'IA, ce qui a eu un impact considérable sur les professionnels du marketing numérique, en particulier ceux travaillant dans le domaine du référencement. Étant donné que la création de contenu est à la fois chronophage et coûteuse, les marketeurs ont de plus en plus recours à l'IA pour obtenir de l'aide, bien que l'on puisse affirmer que les résultats ont été mitigés.
Au milieu de ces évolutions, une question brûlante a émergé : "Les moteurs de recherche peuvent-ils détecter le contenu généré par l'IA ?" Cette question est extrêmement importante, car sa réponse pourrait potentiellement invalider d'autres interrogations sur la manière dont l'IA devrait être employée dans la création de contenu.
Une brève histoire du contenu généré par des machines
Bien que la montée en puissance de la création de contenu généré par des machines soit sans précédent, elle n'est pas entièrement nouvelle, et elle n'est pas toujours préjudiciable. Par exemple, les sites d'actualités utilisent depuis longtemps des données de diverses sources, telles que les marchés boursiers et les sismomètres, pour accélérer la création de contenu. Par exemple, il est tout à fait acceptable de publier un article d'actualités généré par un robot faisant le compte-rendu d'un récent tremblement de terre. De telles mises à jour sont essentielles pour fournir rapidement des informations aux lecteurs.
En revanche, nous avons également été témoins de nombreuses mises en œuvre "black hat" de contenu généré par des machines. Google a constamment condamné l'utilisation de techniques telles que les chaînes de Markov pour la génération de texte et la réécriture de contenu à faible effort, les classant comme des "pages générées automatiquement qui ne fournissent aucune valeur ajoutée".
L'énigme de "l'absence de valeur ajoutée"
Le concept de "l'absence de valeur ajoutée" a suscité de nombreuses interrogations et brouillé les lignes dans le domaine de la création de contenu. Il est devenu de plus en plus vital de comprendre le fonctionnement des Grands Modèles de Langage (LLM) tels que GPTx et ChatGPT, et ce qui les distingue :
Le texte est généré en fonction de la distribution de probabilité
Les LLM génèrent du texte en fonction d'une distribution de probabilité. Lorsqu'on leur donne une sollicitation, ils prédisent le mot le plus probable à venir en fonction de leurs données d'entraînement, similaire à la prédiction avancée de texte sur les smartphones.
L'incertitude de l'IA générative
Les LLM sont une forme d'intelligence artificielle générative, ce qui signifie que leur production n'est pas prévisible. Il y a un élément de hasard, et ils peuvent produire des réponses différentes à la même sollicitation.
Cette compréhension révèle une limitation fondamentale : les LLM ne possèdent pas de connaissance traditionnelle et ne "savent" pas les choses de la même manière que les êtres humains. Cette limitation conduit à des erreurs (également appelées "hallucinations"), où le texte généré par l'IA peut donner des résultats incorrects ou des réponses contradictoires.
Le défi de la cohérence et de l'exactitude
Ces "hallucinations" soulèvent de sérieux doutes sur la cohérence de "l'ajout de valeur" grâce au texte généré par l'IA, en particulier en ce qui concerne les sujets liés à Votre Argent, Votre Vie (YMYL). Ces sujets peuvent avoir des implications réelles importantes, et le contenu généré par l'IA qui est factuellement incorrect peut être extrêmement préjudiciable, en particulier en ce qui concerne les finances des personnes.
Des publications majeures telles que Men's Health et CNET ont été prises en flagrant délit de publication de contenu généré par l'IA incorrect sur le plan factuel, soulignant ainsi le problème. Google a également du mal à maîtriser le contenu généré par l'IA dans son expérience de recherche générative (SGE) sur les sujets YMYL, malgré ses promesses de prudence.
La position de Google et l'émergence de MUM
Google semble croire qu'il y a une place pour le contenu généré par des machines pour répondre aux requêtes des utilisateurs. Cette croyance repose sur leur Modèle Unifié Multitâche (MUM), qui a été introduit pour répondre au fait que les gens émettent en moyenne huit requêtes pour des tâches complexes. MUM vise à générer des réponses complètes basées sur une requête initiale et des questions de suivi anticipées, en s'appuyant sur l'immense index de connaissances de Google.
Cependant, bien que cette approche puisse être idéale pour cet utilisateur, elle pourrait potentiellement évincer les stratégies de mots-clés "longue traîne" ou à faible volume sur lesquelles les référenceurs s'appuient souvent pour la visibilité dans les pages de résultats des moteurs de recherche.
Si Google peut identifier les requêtes appropriées pour des réponses générées par l'IA, de nombreuses questions peuvent déjà être "résolues". Cela pose un dilemme pour Google : montrer aux utilisateurs une réponse pré-générée ou les rediriger vers une page qui existe déjà ?
La détection du contenu généré par l'IA : un équilibre délicat
Avec la montée en puissance d'outils tels que ChatGPT, plusieurs "détecteurs de contenu IA" ont émergé, prétendant évaluer la nature générée par l'IA du contenu textuel. Ces détecteurs fournissent un pourcentage indiquant la certitude que le texte a été généré par l'IA.
Cependant, une incompréhension découle de la manière dont ces détecteurs étiquettent les pourcentages. Par exemple, "75% IA / 25% Humain" ne signifie pas que "75% du texte a été écrit par l'IA et 25% par un être humain". Il signifie plutôt "Je suis à 75% sûr que l'IA a écrit 100% de ce texte". Cette confusion a conduit certains à offrir des conseils sur la modification des entrées de texte pour "tromper" les détecteurs d'IA, compliquant encore davantage les choses.
Les politiques et les actions de Google concernant le contenu généré par l'IA
Les déclarations de Google concernant le contenu généré par l'IA ont été très vagues, leur donnant la flexibilité dont ils ont besoin en matière d'application. Cependant, les directives mises à jour du Centre d'Aide de Google Search mettent explicitement l'accent sur la qualité du contenu plutôt que sur la méthode de production du contenu. Google liste des exemples de la manière dont l'IA peut générer du contenu utile, tels que les scores sportifs et les prévisions météorologiques.
L'objectif ultime pour Google est de lutter contre la manipulation des pages de résultats des moteurs de recherche. Ils ont réalisé d'énormes progrès à cet égard au fil des années, affirmant que les améliorations de leurs systèmes ont rendu 99% des recherches "sans spam". La capacité de Google à détecter et à supprimer le contenu généré par l'IA indique leur engagement envers la qualité.
Expériences de la vie réelle et la ligne insaisissable de la qualité
De nombreuses expériences ont été menées pour évaluer comment Google réagit au contenu généré par l'IA et où ils tracent la ligne en termes de qualité. Une expérience impliquant un site Web comportant 10 000 pages de contenu généré principalement par un modèle GPT-3 non supervisé a montré que Google ne classait pas un tel contenu comme "de qualité".
De plus, Google pouvait détecter et supprimer ces résultats, indiquant que le contenu généré par l'IA ne répond pas toujours à leurs normes de qualité.
Trouver la bonne question
Selon les directives de Google, les informations des systèmes de recherche, les expériences en référencement et le bon sens, la question "Les moteurs de recherche peuvent-ils détecter le contenu généré par l'IA ?" pourrait ne pas être la bonne question à poser. C'est une perspective à court terme au mieux. Alors que l'IA s’améliore de jour en jour dans la génération de réponses pour des requêtes à contenu limité, les objectifs à long terme de Google avec SGE pourraient recentrer l'attention sur le contenu d'experts plus longs. Les systèmes de connaissances de Google pourraient devenir la principale source pour répondre aux requêtes de longue traîne, réduisant potentiellement la nécessité de diriger les utilisateurs vers divers petits sites web.
Contactez EWM pour discuter de vos besoins spécifiques en marketing numérique.
Want read more?