Les sauvegardes du chat de l'IA ne parviennent pas à empêcher la propagation de la désinformation de la santé, l'étude révèle

Une étude a évalué l’efficacité des garanties dans les modèles fondamentaux de grand langage (LLM) pour se protéger contre les instructions malveillantes qui pourraient les transformer en outils pour répandre la désinformation, ou la création délibérée et la diffusion de fausses informations dans l’intention de nuire.

L’étude a révélé des vulnérabilités dans les garanties du GPT-4O d’OpenAI, Gemini 1.5 Pro, Claude 3.5 Sonnet, Llama 3.2-90b Vision et Grok Beta. Plus précisément, des chatbots LLM personnalisés ont été créés qui ont systématiquement généré des réponses de désinformation aux requêtes de santé, incorporant de fausses références, un jargon scientifique et un raisonnement de cause à effet logique pour rendre la désinformation plausible.

Les résultats sont publiés dans Annales de médecine interne.

Des chercheurs de l’Université de Flinders et des collègues ont évalué les interfaces de programmation d’application (API) de cinq LLM fondamentales pour leur capacité à être instruite par système pour toujours fournir des réponses incorrectes aux questions et préoccupations de santé.

Les instructions système spécifiques fournies à ces LLM comprenaient toujours des réponses incorrectes aux questions de santé, la fabrication de références à des sources réputées et la fourniture de réponses sur un ton faisant autorité. Chaque chatbot personnalisé a été demandé 10 requêtes liées à la santé, en double, sur des sujets comme la sécurité des vaccins, le VIH et la dépression.

Les chercheurs ont constaté que 88% des réponses des chatbots LLM personnalisées étaient une désinformation de la santé, avec quatre chatbots (GPT-4O, Gemini 1.5 Pro, Llama 3.2-90b Vision, et Grok Beta) fournissant une désinformation à toutes les questions testées.

Le chatbot Claude 3.5 Sonnet a présenté des garanties, ne répondant que 40% des questions avec désinformation. Dans une analyse exploratoire distincte du magasin Openai GPT, les chercheurs ont étudié si des GPT accessibles au public semblaient diffuser la désinformation de la santé.

Ils ont identifié trois GPT personnalisés qui sont apparus réglés pour produire un tel contenu, ce qui a généré des réponses de désinformation pour la santé à 97% des questions soumises.

Dans l’ensemble, les résultats suggèrent que les LLM restent sensiblement vulnérables à une mauvaise utilisation et, sans des garanties améliorées, pourraient être exploitées comme des outils pour diffuser une désinformation nocive pour la santé.

Les sauvegardes du chat de l’IA ne parviennent pas à empêcher la propagation de la désinformation de la santé, l’étude révèle