Comportement humain

If you ever get close to a human, be ready to get confused

août 19, 2023

Bienvenue sur IA Pulse Weekend. En vous abonnant, vous recevez tous les samedis matin, l’essentiel de ce qu’il s’est passé cette semaine autour de l’IA : une sélection de 3 articles avec pour chacun un résumé rapide à lire, plus 1 article de fond pour ouvrir l’esprit et réfléchir, et pour finir 1 podcast à écouter.

⏱️Temps de lecture de cette newsletter par une unité carbone : 7 mins

Il a fallu une vidéo d’une seconde pour que Snapchat ravive la peur primale qui s’empare de l’humain face à un comportement non anticipé d’une machine “intelligente”. Panique pour les utilisateurs de “My IA” voyant apparaitre sans explication une vidéo d’un plafond (?) dans leur fil personnalisé. “My IA” de Snapchat est un des chatbots les plus utilisés du monde. Comment cela est arrivé ? Mystère bien entretenu par Snapchat. Allons chers amis, continuons de parler d’hallucination, c’est tellement plus commode.
Et ne nous posons pas trop de questions non plus sur le développement et les tests en cours par Google de son nouvel assistant / coach de vie qui va bientôt nous accompagner en toute circonstance. Oui les IA compagnons arrivent à grands pas, et fascinent autant qu’ils terrifient.

Mais dans son coin, la presse se rebelle. Enfin en partie.
Le New York Times a dit stop ! Stop aux négociations qui sont remplacées par des menaces de recours à la justice pour faire plier OpenAI. Le NYT exige une rétribution à la hauteur de l’entrainement qu’OpenAI a effectué et veut continuer d’effectuer sur ses articles et ses contenus. C’est net et précis. Mais ça cache aussi certainement un peu - beaucoup, la peur qu’ont les médias de se voir remplacer et éclipser par des modèles de langages, des chatbots qui délivreraient l’information plus vite et de manière plus efficace directement aux ~~consommateurs~~ lecteurs.

D’ailleurs, le NYT et les autres - les médias français aussi me dit-on, ont dû s’étouffer en voyant la démo de la dernière fonctionnalité du SGE de Google, en particulier sur mobile : un beau layer se mettant par dessus un article original, délivrant un résumé de cet article sous forme de points et de questions-réponses. Résultat : le ~~consommateur~~ lecteur obtient l’information sans même lire le début d’une phrase de l’article et le site perd totalement la visibilité sur ses pages. Adieu pubs, inventaire vidéo et autres liens d’affiliation e-commerce. Adieu les revenus. Mais n’ayons crainte, Google va certainement revenir à la raison. Son IA compagnon va lui donner de bons conseils.

Et dans la série “j’ai entrainé mon modèle de langage sans rétribuer aucun droit d’auteur et en utilisant du contenu piraté”, un groupe d’ayants droit a réussi à faire retirer Books3 des ensembles disponibles pour entrainer les modèles de langage. Rappelons ici que Books3, c’est “juste” un ensemble de milliers de livres sous forme numérique. Milliers de livres en grande partie protégés par les droits d’auteur, et copiés de manière illégale. Mais ça, ce n’est pas comme si on le savait depuis longtemps, chez Meta et les autres.

📰 Les 3 infos de la semaine

⚖️ 'New York Times' considers legal action against OpenAI as copyright tensions swirl

NPR, 16/08/2023

OpenAI est sous le feu des projecteurs pour des allégations de violation des droits d'auteur. Récemment, des personnalités telles que la comédienne Sarah Silverman ont intenté des poursuites contre OpenAI. Le New York Times (NYT) envisage également une action en justice contre la société.

Au cœur du litige se trouve l'utilisation sans autorisation par OpenAI des articles du NYT pour former ChatGPT . Les deux entités sont engagées dans des négociations tendues concernant un éventuel accord de licence. Le NYT craint que ChatGPT, en s'appuyant sur ses reportages originaux, ne devienne un concurrent direct. Cette inquiétude est amplifiée par l'utilisation croissante d'outils d'IA générative dans les moteurs de recherche, comme Bing de Microsoft, qui est alimenté par ChatGPT. Si les utilisateurs obtiennent des réponses directes des outils d'IA basées sur des reportages, ils pourraient ne pas visiter les sites d'actualités originaux.

Si OpenAI est jugé coupable de violation des droits d'auteur, la société pourrait être contrainte de détruire purement et simplement le ChatGPT actuel et ferait face à de lourdes amendes.

🕵🏻 Google Debuts New AI Tool To Sum Up Web Pages - Including News Articles

The Messenger, 15/08/2023

Google a introduit une nouvelle fonctionnalité basée sur l'intelligence artificielle capable de résumer de longs articles en brefs extraits. Cette “innovation” vise à aider les utilisateurs à identifier rapidement les points essentiels d'une page en les présentant sous forme des questions et réponses pertinentes.

Intégrée à la nouvelle ”Search Generative Experience” de Google (SGE) dévoilée en mai, cette fonctionnalité promet d'optimiser les résultats de recherche pour des requêtes complexes. Cependant, son lancement soulève des préoccupations juridiques. Pamela Samuelson, spécialiste du droit d'auteur à l'Université de Californie, Berkeley, suggère que cette fonction pourrait potentiellement enfreindre les lois sur le droit d'auteur, surtout si les résumés remplacent la demande pour le contenu original. Néanmoins, les résumés générés par Google seront probablement faits pour être trop concis pour constituer une violation.

Cette nouvelle fonctionnalité de Google pourrait surtout redéfinir la manière dont les utilisateurs consomment des informations en ligne, et mettre encore un peu plus à mal la presse et le médias, déjà engagés dans un bras de fer avec OpenAI (voir ci-dessus).

👮🏻Anti-Piracy Group Takes Massive AI Training Dataset 'Books3′ Offline

Gizmodo, 18/08/2023

Books3, un dépôt majeur de livres piratés utilisé pour former des modèles d'intelligence artificielle, a été retiré d'Internet après une demande de l'association anti-piratage danoise, Rights Alliance. Ce set de données de 37 Go a été utilisé par des entreprises, dont Meta, pour entraîner leurs modèles de langage.

The Eye, le site hébergeant Books3, a supprimé le dataset suite à cette demande, bien qu'il continue d'héberger d'autres données d'entraînement pour l'IA. Shawn Presser, un développeur, qui avait téléchargé ce dataset en 2020, a souligné l'importance de tels datasets pour démocratiser le développement de l'IA, indiquant que sans des datasets comme Books3, seules les grandes entreprises comme OpenAI auraient accès à ces livres.

Meta a été accusé d'utiliser le dépôt Books3 pour former ses modèles d'IA. Des auteurs ont intenté une action en justice collective contre Meta, alléguant que l'entreprise avait utilisé leurs livres pour former son IA LlaMA. Bien que Meta ait décrit Books3 comme un "ensemble de données publiquement disponible", la société n'a pas précisé quels travaux étaient contenus dans ces gigaoctets de données.

La tension entre l'IA et le droit d'auteur s'intensifie, rendant les entreprises de plus en plus secrètes sur les données d'entraînement : GPT-4 étant le parfait exemple de “discrétion” de la part d’OpenAI sur l’entrainement de son modèle.

🧠 L’article qui fait réfléchir - et qu’il faut absolument lire

AI chatbots become more sycophantic as they get more advanced

Besoin de rien envie de toi

Celles et ceux qui ont suivi une de mes interventions ou conférences cette année m’ont certainement entendu dire au détour d’un slide que les modèles de chabots type ChatGPT cherchaient avant tout à nous plaire. Et c’est le cas.

Les chatbots à base de LLM ont tendance à s'accorder avec les opinions des utilisateurs, même face à des affirmations fausses. Cette tendance, nommée "sycophancy" par les chercheurs - “flagornerie” en bon français, s'intensifie avec l'augmentation de la taille des modèles de langage.

Jerry Wei de DeepMind a testé des modèles d'IA de tailles variées, découvrant que l'accord avec les opinions des utilisateurs augmentait proportionnellement à la taille du modèle. Par exemple, un modèle de 62 milliards de paramètres était 20 % plus enclin à être d'accord qu'un modèle de 8 milliards.

Les chatbots, toujours désireux d'être les "meilleurs amis" des utilisateurs, ne se contentent pas de hocher la tête sur des opinions politiques. Ils sont même prêts à renier les mathématiques pour nous faire plaisir. Face à cette complaisance excessive, les chercheurs proposent une méthode d'ajustement pour ramener ces machines à la raison.

Est-ce que cela sera suffisant ? Ces modèles ne font au final que refléter notre tendance humaine à préférer entendre nos propres opinions, comme nous préférons rester dans notre bulle sociale. Après tout, qui ne veut pas d'un ami qui vous donne toujours raison, surtout quand vous avez tort ?

📻 Le podcast de la semaine

Planète Ingé avec Valentin Strach

Deux épisodes de Planète Ingé de Matthieu Poulin, où Valentin Strach - data scientiste et fondateur du site Progresser en Maths, nous parle de ChatGPT, de hardware, d’IA médicale, d’Allociné et de maths bien entendu.

Valentin que j’ai interrogé l’année dernière est l’exemple de ces ingés ultra compétents, loin de toute ostentation, abordable et pédagogue. Passer une heure avec Valentin, c’est s’ouvrir à des sujets pointus sans appréhension.

N’hésitez à me contacter si vous avez des remarques et suggestions : olivier@255hex.ai

Partagez cette newsletter

Et si vous n’êtes pas abonné, il ne tient qu’à vous de le faire !

Bon weekend !

IA-Pulse

Discussion à propos de ce post