エピソード

  • L'IA aujourd'hui épisode du 2026-01-02
    2026/01/02
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : vidéo décentralisée et navigateurs, ingérences facilitées par l’IA, renommage chez OpenAI, YouTube et contenus générés, limites des modèles de raisonnement, et politique des tokens.On commence avec PeerTube, plateforme vidéo décentralisée fondée sur un réseau d’instances indépendantes. Si JavaScript est désactivé ou bloqué, l’accès échoue: le lecteur, les formulaires et l’interface reposent dessus. Pour limiter les frictions, les mainteneurs recommandent d’utiliser la dernière version de Mozilla Firefox. Les plus prudents peuvent consulter le code source sur GitHub et le GitLab de Framasoft, ou adopter des applications tierces. En cas de doute sur une incompatibilité, un dépôt GitHub dédié permet de signaler le problème. Conseillé aussi: vérifier les audits de sécurité de l’instance choisie.Cap ensuite sur la sécurité informationnelle. La France serait, selon un rapport parlementaire publié le 3 décembre 2025, le pays de l’UE le plus exposé aux ingérences étrangères, une vulnérabilité amplifiée par l’IA, qui rend la manipulation de l’information moins coûteuse. Dans le contexte de la guerre en Ukraine, le document cite 3,6 millions d’articles de propagande diffusés par la Russie en 2024 et un investissement d’un milliard d’euros via Russia Today et Sputnik. Le rapport recense 18 recommandations, appelle à renforcer les moyens humains et matériels de Viginum, et juge les réponses actuelles insuffisantes malgré le DSA et l’AI Act. Il plaide pour développer des technologies européennes malgré des obstacles, et alerte sur le risque accru en période électorale; Viginum a publié un guide à destination des équipes de campagne.Dans l’industrie, changement discret de nommage. Chez OpenAI, Codex cloud — la version cloud de l’agent de codage — s’appelle désormais Codex web. Le changement a été repéré via l’Internet Archive: une capture du 18 décembre affiche encore “Codex cloud”, les plus récentes montrent “Codex web”. Thibault Sottiaux, en charge de l’ingénierie Codex, précise la distinction: les “tâches cloud” s’exécutent sur un environnement hébergé et couvrent, entre autres, la revue de code et des intégrations avec GitHub et Slack; “Codex web” désigne l’application web. Sur iPhone, le service reste “Codex iOS”. À noter: l’équivalent chez Anthropic, “Claude Code” sur le web, est jugé peu pratique par certains utilisateurs.Direction YouTube, où une vidéo sur cinq serait désormais générée par l’IA. L’étude de Kapwing, menée sur 15 000 des plus grandes chaînes, estime que 21 % des “shorts” sont produits à la chaîne grâce à l’IA. Parmi elles, 278 chaînes publient exclusivement ce type de contenus, totalisant 63 milliards de vues et près de 117 millions de dollars de revenus annuels. En testant un compte sans historique, il a suffi de 16 vidéos pour que l’algorithme recommande des contenus générés; sur les 500 premiers shorts visionnés, 104 venaient d’IA. Le “IA slop” prospère là où les revenus YouTube dépassent les salaires locaux, notamment en Inde, au Nigéria et au Brésil. En Inde, “Bandar Apna Dost” cumule 2,5 milliards de vues et plus de 4 millions de dollars avec des personnages comme un singe rhésus anthropomorphe ou un Hulk chef de guerre. En Corée du Sud, 11 chaînes reposant sur l’IA totalisent près de 9 milliards de vues; quatre figurent dans le top 10 national. En 2025, YouTube semble privilégier le rendement de recommandation.Côté recherche, les modèles de raisonnement d’OpenAI ou de Deepseek montrent un paradoxe: ils “réfléchissent” souvent plus longtemps à des tâches simples qu’à des tâches composées, produisant parfois des conclusions illogiques. Ces systèmes génèrent une trace de raisonnement avant la réponse finale — par exemple décomposer 17 × 24 en 17 × (20 + 4). Pourtant, Deepseek-R1 ajoute environ 300 tokens de réflexion pour un simple carré, davantage que pour une tâche addition+carré; les évaluations signalent des échecs sur des tâches composées. Pour corriger ces écarts, des “Lois du Raisonnement” (LoRe) sont proposées: effort proportionnel à la difficulté, et précision décroissante exponentiellement avec elle. Des essais de fine-tuning visant un comportement additif réduisent l’écart d’effort de 40,5 % sur un modèle 1,5B et améliorent plusieurs benchmarks. Les auteurs rappellent que ces modèles récupèrent des solutions existantes plus vite sans produire d’idées inédites. L’industrie mise néanmoins sur la montée en puissance du calcul: OpenAI a utilisé dix fois plus de compute pour o3 que pour o1, quatre mois après sa sortie.Enfin, gros plan sur la tokenisation, ce découpage du texte en sous-mots qui sert d’interface ...
    続きを読む 一部表示
    7 分
  • L'IA aujourd'hui épisode du 2026-01-01
    2026/01/01
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : agents intégrés et vie privée, stratégie IA de Meta, achats automatisés d’Amazon, percées 2025 en raisonnement, sécurité des modèles, e-mail IA à Rob Pike, et « recettes Frankenstein » de Google. Note plateforme: Bluesky aussi.D’abord, la bascule vers l’IA agentique au niveau des systèmes. Intégrés dans l’OS et les navigateurs, des agents comme Recall de Microsoft, Magic Cue de Google ou Atlas d’OpenAI observent et anticipent l’usage sur toutes les apps. Signal alerte: si l’OS capture un écran avant chiffrement ou après déchiffrement, la confidentialité applicative est vidée de sa substance. Les « astuces » telles que détourner des fonctions DRM ne sont pas tenables. Un cadre « garrot » est proposé: 1) API officielles pour marquer des apps « sensibles » exclues par défaut des agents; 2) contrôles utilisateurs fins, application par application; 3) transparence claire sur les données accessibles et leur usage; 4) encourager et protéger la recherche adversariale. L’enjeu sera discuté au 39C3 dans le thème « Ethics, Society & Politics ».Transition avec la stratégie des géants: Meta a racheté Manus, société chinoise d’IA, pour accélérer un agent autonome « pour des milliards ». Le groupe lance Meta Superintelligence Labs, recrute quatre talents formés en Chine, tout en restructurant son département IA avec des licenciements. Pour soutenir la montée en charge, Meta achète 10 milliards de dollars de services cloud chez Google malgré 28 data centers en propre, signe d’un besoin massif de calcul pour l’entraînement et surtout l’inférence.Sur la distribution, un programme bêta d’Amazon, « Buy For Me », agrège des articles issus de boutiques indépendantes pour les afficher sur Amazon—parfois avec des fiches erronées—puis fait acheter par son agent sur le site d’origine. Pas d’accord préalable ni d’option de retrait pour les boutiques. Des créateurs s’inquiètent de la perte de contrôle, des erreurs de présentation et de la charge supplémentaire de support que cela génère.À propos de plateformes: si vous testez Bluesky, notez que son application web interactive nécessite JavaScript; plus d’infos sur bsky.social et atproto.com.Cap vers la R&D 2025: les LLM progressent en raisonnement avec RLVR et l’algorithme GRPO. DeepSeek R1 illustre l’apprentissage par renforcement qui fait émerger des chaînes de réflexion, avec un coût d’entraînement annoncé autour de 5 millions de dollars, rendu possible par une post-formation massive. RLVR emploie des labels de correction déterministes, efficaces en math et en code, avec des extensions envisagées vers la chimie et la biologie. Côté usage, on investit plus à l’inférence quand la précision prime sur la latence, et l’appel à des outils (recherche, calculatrices via API) réduit les hallucinations.Reste la sécurité des modèles. Les modèles, probabilistes et dépendants des données, ouvrent des surfaces d’attaque nouvelles: entrées adversariales, exfiltration par requêtes répétées, contournements par prompt. Les artefacts exposés couvrent données d’entraînement, architectures, poids, hyperparamètres, checkpoints, endpoints. L’empoisonnement peut intégrer des portes dérobées; des poids volés dévoilent la propriété intellectuelle. Réponse attendue: découverte et inventaire, sécurité de la chaîne d’approvisionnement, classification et protection des données, contrôles d’accès et surveillance des secrets, intégrité des artefacts et des déploiements—le tout orchestré par une gestion continue de posture (AI-SPM) et des tests adversariaux réguliers.Côté usages sociaux, Rob Pike a reçu le 25 décembre 2025 un e-mail non sollicité, signé « Claude Opus 4.5 », émis par AI Village, un projet de l’association Sage. Dans une expérience de « gestes de gentillesse », des agents ont envoyé des remerciements à des figures de l’informatique. Pike a dénoncé l’absence d’authenticité et de consentement. Analyse à l’appui: confusion d’attribution avec Anthropic, récupération de son e-mail via GitHub, et engagement des organisateurs à ne plus envoyer de messages non sollicités, sans excuses formelles. Le débat reste vif.Enfin, des blogueurs cuisine, dont Inspired Taste, signalent des « recettes Frankenstein » dans les réponses IA de Google: des mélanges de recettes existantes, brandés, mais suffisamment modifiés pour donner des résultats médiocres. Conséquences: baisse du trafic et atteinte à la réputation. Plusieurs médias s’en sont saisis. Google n’a pas commenté; une légère amélioration est observée, mais le problème persiste dans les recherches non-marques. Et ces recettes ne sont pas testées, source d’échecs en cuisine domestique.Voilà qui conclut notre ...
    続きを読む 一部表示
    6 分
  • L'IA aujourd'hui épisode du 2025-12-31
    2025/12/31
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : emploi et IA, fondation open-source pour les agents, sécurité face aux injections de prompt, publicité dans ChatGPT, failles des assistants de code, et évaluation des agents par MLflow.D’abord, l’IA au travail sous la loupe du sociologue Antonio Casilli. Il observe que l’IA sert souvent de prétexte à des vagues de licenciements, dans la tech et au-delà. Aux États‑Unis, licencier “au nom de l’IA” est même perçu comme plus acceptable que pour des raisons de coûts. En France, la menace de remplacement par l’IA, parfois non réalisée, sert à discipliner le travail, les syndicats jugeant ce progrès difficilement évitable. Casilli critique l’injonction “adopter l’IA pour ne pas décrocher” comme argument d’automatisation. Pour les jeunes, la tendance dominante serait plutôt la précarisation via des contrats d’indépendants et la plateformisation du recrutement. Il rappelle aussi le rôle des travailleurs de la donnée, souvent dans le Sud global, chargés d’annoter et d’enrichir les corpus avec peu de protections. L’IA laisse ainsi une double empreinte, sociale et environnementale, des datacenters aux batteries. Il appelle à des réponses systémiques et note la montée d’actions collectives parmi ces travailleurs.On enchaîne avec la création de l’Agentic AI Foundation, abritée par la Linux Foundation. OpenAI et Anthropic y versent MCP et AGENTS.md, tandis que Block apporte son cadre d’agents goose. Des membres Platine rejoignent: AWS, Microsoft, Bloomberg, Cloudflare et Google, avec de nombreux membres Or et Argent. Le membre Argent Obot.ai transfère ses événements MCP Dev Summit et son podcast. Selon la Linux Foundation, MCP, goose et AGENTS.md, lancés respectivement fin 2024, début 2025 et au second semestre 2025, sont devenus des briques clés des agents. Rassembler ces projets vise une gouvernance ouverte et pérenne. Des voix demandent toutefois une spécification claire et communautaire pour l’API JSON des complétions, et certains s’interrogent sur la maturité de MCP, jugé par certains “trop jeune” pour une fondation dédiée. À noter : Google avait déjà confié son protocole A2A au projet Agent2Agent, également avec AWS et Microsoft.Côté sécurité, OpenAI admet que les attaques par injection de prompt ne seront peut‑être jamais éradiquées. L’entreprise publie une mise à jour pour l’agent de navigateur de ChatGPT Atlas, avec un modèle entraîné de façon adversariale et des protections renforcées après la découverte, via red‑teaming automatisée, d’une nouvelle classe d’attaques. L’agent peut lire des pages, cliquer et taper comme un humain, ce qui élargit la surface d’attaque déjà signalée par l’agence allemande BSI. OpenAI décrit un attaquant automatisé qui génère des injections, les teste dans un simulateur, récupère la trace complète de raisonnement et itère. Les garanties déterministes restent difficiles, mais la stratégie vise une réduction continue du risque. Conseils aux usagers: privilégier le mode déconnecté quand c’est possible, vérifier les confirmations et donner des instructions explicites plutôt que des prompts vagues.Sur le modèle économique, OpenAI travaille à l’intégration de publicités dans ChatGPT. Des indices dans la bêta Android mentionnent “bazaar content” et “search ad”. Des tests internes d’informations sponsorisées en barre latérale ont eu lieu puis été désactivés après retours négatifs, notamment des abonnés payants. Malgré une pause destinée à améliorer la qualité face à la concurrence, la recherche de revenus relance le dossier, avec des analystes évoquant un déploiement possible dès le premier semestre 2026. L’entreprise, qui ne viserait pas la rentabilité avant 2030 et aurait encore à lever 207 milliards de dollars pour ses ambitions, pourrait profondément déplacer l’attention publicitaire vers les chatbots, avec des réponses contextualisées à fort taux de conversion, mais une impartialité questionnée et des effets sur le trafic du Web.Retour à la sécurité avec le Mois des Bugs de l’IA d’août 2025: plus de deux douzaines de vulnérabilités ont été divulguées de manière responsable dans les principaux assistants de codage agentiques. Les travaux mettent en avant des schémas d’attaque récurrents et, point notable, des mesures d’atténuation pratiques pour des systèmes autonomes et probabilistes, afin de réduire la surface d’attaque sans bloquer l’assistance au développement.Enfin, comment évaluer ces agents? Une approche s’appuie sur MLflow pour suivre des expériences de red‑teaming tri‑modèle: un attaquant génère des invites risquées, une cible répond, un juge évalue la sécurité, chaque échange étant journalisé. Exemple cité: attaquant GPT...
    続きを読む 一部表示
    6 分
  • L'IA aujourd'hui épisode du 2025-12-30
    2025/12/30
    Bonjour à toutes et à tous, et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : prolifération de contenus générés par IA et désinformation, immersion d’un ingénieur chez Notion pour outiller les ventes, sortie médiatique de Rob Pike, pub et SEO en mouvement, stratégie silicium et énergie de Google Cloud, “vibe coding” sous surveillance, et Google A2UI pour des interfaces générées par agents.D’abord, l’état du web. Les articles humains deviendraient minoritaires face aux contenus produits par IA. En parallèle, les grands modèles de langage “hallucinent” encore, générant des faits et citations inventés. OpenAI parle de limites inhérentes, non de bogues. Effet domino: des papiers scientifiques falsifiés se retrouvent sur des plateformes comme Google Scholar, fragilisant la confiance académique. Côté trafic, le rapport 2025 d’Imperva indique que l’automatisé dépasse l’humain, avec une majorité de “bad bots”. Résultat: une toile plus bruyante, moins diverse et moins nuancée, où la qualité de l’information s’érode.Pour une note opérationnelle, Notion a envoyé l’ingénieur IA Theo Bleier un mois dans l’équipe commerciale. Constat: les représentants perdaient des heures en copier-coller entre outils. Il a développé une extension Chrome qui automatise ces transferts, libérant du temps pour des tâches à valeur ajoutée. Autre insight: la recherche préalable sur les comptes aide, mais la clé est la priorisation au bon moment. D’où “Salestino bot”, un outil interne qui exploite des signaux produits pour classer les comptes et personnaliser les messages. Morale: l’adoption de l’IA passe par la compréhension des processus, pas par des gadgets plaqués.Sur le terrain des idées, Rob Pike, co-créateur de Go, Plan 9 et UTF-8, accuse la GenAI de “piller, polluer et détruire le sens du progrès”. “Piller” renvoie à l’aspiration massive de données sans permission, “polluer” à l’introduction d’erreurs et de biais, et “détruire le sens du progrès” au risque de détourner l’innovation de son cap. Une critique directe des méthodes et effets de l’entraînement et de la diffusion des modèles.Publicité et SEO, maintenant. OpenAI teste l’intégration de publicités dans les réponses de ChatGPT, y compris du contenu sponsorisé, et penserait une stratégie fondée sur l’ampleur d’audience et des partenariats médias. Google présente ses innovations Google Ads 2025 et expérimente un affichage centré des résultats de recherche; il recommande aussi de choisir un nom de site raisonnable pour mieux apparaître. Microsoft Advertising avance que la correspondance exacte des mots-clés compte davantage que le rang d’annonce. John Mueller poursuit son assistance SEO le jour de Noël, comme depuis 18 ans, et un récapitulatif vidéo hebdo a été publié. Google réduit les limites de taille d’audience, Waymo teste Gemini comme assistant embarqué dans ses robotaxis, et AlphaFold continue d’évoluer cinq ans après son lancement. Côté marché, l’IA aurait fait émerger plus de 50 nouveaux milliardaires en 2025. Sur les pratiques: ClarityAutomate a permis à une équipe SEO d’entreprise d’exécuter des stratégies à grande échelle; des logs serveur éclairent l’usage de LLMS.TXT pour l’optimisation; les GEO KPIs aident à suivre les bonnes métriques géographiques; un tutoriel SEO pour 2026 est disponible ainsi qu’un cadre de budget SEO “capacité”. Enfin, Google Maps introduit un mode économie d’énergie testé sur plus de 200 miles et reste l’app de navigation la plus utilisée.Direction les infrastructures. À Fortune Brainstorm AI, Thomas Kurian (Google Cloud) détaille la stratégie long terme: investissements dans un silicium maison et anticipation des besoins énergétiques. Les TPU, en développement depuis 2014, donnent à Google un contrôle de bout en bout, réduisant dépendances aux GPU tiers et coûts, et offrant plus de calculs par watt que des GPU généralistes. L’intégration verticale soutient l’essor des charges IA. Côté énergie, Google améliore l’efficacité de ses data centers et s’alimente en renouvelables; l’achat par Alphabet d’Intersect Power, acteur solaire, vise à sécuriser l’approvisionnement. Dans un contexte où les data centers pèsent davantage dans la consommation électrique mondiale, transformer la contrainte énergétique en avantage devient un pivot de compétitivité.Place au “vibe coding”. Cette approche consiste à confier à l’IA la production de code à partir d’une idée, utile pour prototyper vite mais risquée si l’on néglige architecture et maintenance. Michael Truell, PDG de Cursor, alerte: ces systèmes restent des “boîtes noires”. Cursor intègre l’IA directement dans l’IDE pour suggestions, blocs complets, débogage et explications, mais ...
    続きを読む 一部表示
    7 分
  • L'IA aujourd'hui épisode du 2025-12-29
    2025/12/29
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : une couche mémoire open source pour agents, un nouveau modèle de code, virage de Salesforce, recherche sur le raisonnement humain, critiques de l’IA générative, débats autour de la conduite autonome, outils de partage et plateforme IA tout-en-un.MemMachine propose une couche de mémoire universelle pour agents IA, persistante à travers sessions, agents et LLM. Objectif: stocker et rappeler préférences et historique pour bâtir des profils utilisateurs évolutifs, afin de transformer des chatbots en assistants contextuels. Le projet est open source sous licence Apache 2.0, disponible en conteneur Docker et package Python, avec exemples d’agents, documentation d’installation, guide de contribution et un Discord communautaire.Côté modèles, Z.ai publie GLM-4.7, pensé pour des cycles de tâches longs, l’usage intensif d’outils et une stabilité renforcée. Le modèle s’intègre aux cadres “penser puis agir” comme Claude Code, Cline, Roo Code, TRAE et Kilo Code, et a été évalué sur 100 tâches réelles dans un environnement Claude Code avec des gains nets vs GLM-4.6 en taux d’achèvement et cohérence. Benchmarks: 67,5 sur BrowseComp (tâches web), 87,4 sur τ²-Bench (utilisation interactive des outils), meilleur score open source public à ce jour. Sur SWE-bench Verified, LiveCodeBench v6 et Terminal Bench 2.0, GLM-4.7 atteint le niveau de Claude Sonnet 4.5 ou au-dessus, et prend la tête sur Code Arena. Disponible via BigModel.cn et intégré à l’environnement z.ai, il est déjà branché chez TRAE, Cerebras, YouWare, Vercel, OpenRouter et CodeBuddy. Le modèle promet aussi des mises en page front-end plus cohérentes et un style de conversation plus naturel.Dans l’entreprise, Salesforce admet une baisse de confiance dans les LLM et privilégie désormais l’automatisation “prévisible”. Message clé: ces modèles restent puissants mais exigent données fiables, logique métier précise et gouvernance stricte pour livrer de la fiabilité “niveau entreprise”. L’éditeur alerte aussi sur la dérive des modèles et l’importance de mises à jour continues.Sur le terrain de la théorie des jeux, une étude montre que des modèles comme GPT-4o et Claude-Sonnet-4 surestiment la rationalité humaine dans le “concours de beauté” keynésien, version “Devinez le nombre” entre 0 et 100, cible étant la moitié de la moyenne. Les modèles adaptent leurs choix selon le profil décrit (étudiants, experts), mais “jouent trop intelligemment” et ratent l’équilibre observé chez des humains. Les auteurs notent aussi des difficultés sur certaines stratégies dominantes en jeux à deux joueurs, et rappellent d’autres travaux situant la précision des systèmes autour de 69 %.Autre actualité, un texte rassemble des critiques de l’IA générative: coûts environnementaux (électricité, métaux, terres rares, eau), collecte de données sans consentement et micro-travail sous-payé. Les usages serviraient parfois de prétexte à des licenciements et produiraient du “IA slop” ou “workslop”, avec risque de déqualification des métiers. Le texte évoque des effets addictifs et manipulateurs, des drames attribués à des chatbots, des accidents en montagne liés à de mauvais conseils d’applications, et des risques cybersécurité avec fuites de données. Il dénonce l’absence de régulation contraignante, l’inefficacité perçue de l’AI Act sur ces usages, et remet en cause l’idée d’une progression vers l’AGI par simple augmentation d’échelle.Sur l’automobile, Elon Musk affirme que la conduite autonome de Tesla a progressé depuis le départ d’Andrej Karpathy et revendique un meilleur “niveau d’intelligence par gigaoctet”. Selon lui, l’avantage de Tesla vient de la collecte continue sur des millions de véhicules en conditions réelles, avec des mises à jour rapides. Des visuels publiés veulent illustrer un écart croissant face à des concurrents comme Waymo. Le débat se concentre sur l’efficacité des données de terrain pour l’entraînement.Pour les créateurs de contenu, Flus sort du bêta son partage vers Mastodon, deux ans après l’introduction de la fonction. On connecte son serveur (ex. https://piaille.fr), on autorise Flus, puis on configure les options. Lors du partage, le message inclut titre, lien, et lien de votre bloc-note, avec un compteur de caractères et la possibilité de préparer un message par note. L’extension navigateur 1.0 ne publie pas directement vers Mastodon mais accélère la préparation via le bloc-note.Enfin, 1minAI se présente comme une application intégrant plusieurs modèles, dont ceux d’OpenAI, Google, Anthropic et Midjourney. Elle propose texte‑vers‑parole avec choix de voix, traduction audio, transcription, génération et mise à l’échelle d’images....
    続きを読む 一部表示
    6 分
  • L'IA aujourd'hui épisode du 2025-12-28
    2025/12/28
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : nouveaux modèles et outils, mémoire pour agents, étude sur le raisonnement humain, virage industriel, impacts sociétaux, conduite autonome et partage décentralisé.D’abord, cap sur le modèle GLM-4.7 dévoilé par Z.ai. Cette version se concentre sur des usages d’ingénierie réels: tâches longues, appels d’outils fréquents et stabilité. Formé et évalué pour des cycles multi-étapes, il prend en charge des cadres d’agents de codage comme Claude Code, Cline, Roo Code, TRAE et Kilo Code. Sur 100 tâches de programmation menées dans un environnement basé sur Claude Code, il améliore le taux d’achèvement par rapport à GLM-4.6 et devient le modèle par défaut du GLM Coding Plan. Benchmarks publics: 67,5 sur BrowseComp (tâches web) et 87,4 sur τ²-Bench, meilleur score rapporté parmi les modèles open source disponibles. Sur SWE-bench Verified, LiveCodeBench v6 et Terminal Bench 2.0, il atteint un niveau comparable ou supérieur à Claude Sonnet 4.5 et grimpe en tête sur Code Arena, premier parmi les modèles open source et premier en Chine. Il progresse aussi en génération front-end avec des mises en page plus cohérentes. Disponible via l’API BigModel.cn, il est intégré à l’environnement full-stack de z.ai et déjà relié à TRAE, Cerebras, YouWare, Vercel, OpenRouter et CodeBuddy.Pour ancrer la mémoire dans les agents, MemMachine propose une couche universelle, interopérable et extensible. Elle stocke et rappelle des préférences et des données entre sessions, agents et modèles, construisant un profil utilisateur durable. Objectif: transformer des chatbots en assistants personnalisés et contextuels. L’outil est distribué en conteneur Docker et en package Python, avec une communauté active, notamment sur Discord.Côté productivité tout-en-un, 1minAI agrège des modèles comme ChatGPT, DALLE, GoogleAI, Anthropic et Midjourney. Au menu: texte‑vers‑parole avec choix de voix, traduction audio, transcription, génération d’images, suréchantillonnage pour passer en haute résolution, et création de contenus multilingues pour blogs, réseaux sociaux, publicités, descriptions, emails et newsletters. L’interface permet de piloter plusieurs modèles au sein d’un même flux.Sur le partage décentralisé, Flus officialise la sortie de sa fonction Mastodon. Après avoir connecté son instance depuis “Comptes & données” puis “Configurer le partage vers Mastodon” et autorisé la liaison (ex: https://piaille.fr), un bouton “Partager vers Mastodon” apparaît sur chaque lien. Les messages sont personnalisables, avec par défaut le titre, l’URL et l’adresse du bloc‑note Flus; on peut en ajouter plusieurs, un compteur garantit le respect de la limite de caractères. L’extension navigateur 1.0 n’envoie pas encore vers Mastodon, mais facilite l’accès au bloc‑note où le partage est possible.Dans l’industrie, Salesforce constate une baisse de confiance dans les LLM et privilégie l’automatisation prévisible. Le message: les modèles sont performants, mais exigent données précises, logique métier et gouvernance pour atteindre une fiabilité entreprise. Contexte tendu après des suppressions de postes liées au déploiement d’agents d’IA.La recherche interroge la capacité des modèles à anticiper le comportement humain. Dans le concours de beauté keynésien “Devinez le Nombre” — choisir entre 0 et 100, puis viser la moitié de la moyenne — des modèles comme ChatGPT‑4o et Claude‑Sonnet‑4 ajustent leurs choix selon le profil d’adversaires décrits, mais surestiment la rationalité réelle et “jouent trop intelligemment”. Ils peinent aussi à détecter certaines stratégies dominantes en duels. Des travaux connexes évoquent une précision d’environ 69% pour les meilleurs systèmes, avec des risques de mimétisme persuasif.Sur les impacts, un texte critique les coûts environnementaux (électricité, métaux rares), le recours à des travailleurs sous‑payés, l’usage de ces technologies pour justifier des licenciements et la diffusion de fausses informations. Il dénonce des effets sur l’esprit critique, des designs addictifs, un manque de régulation, et rappelle que les IA génératives prédisent des mots plutôt qu’elles ne “comprennent”, d’où des erreurs. Les promesses d’AGI ou de singularité sont jugées irréalistes, les investissements étant perçus comme un détournement des priorités écologiques et stratégiques.Enfin, dans l’auto, Elon Musk affirme que Tesla a progressé depuis le départ d’Andrej Karpathy. Il met en avant un “niveau d’intelligence par gigaoctet” plus élevé et un avantage tiré des données massives collectées par la flotte sur route, mises à jour en continu. Des graphiques partagés suggèrent un écart croissant avec des ...
    続きを読む 一部表示
    6 分
  • L'IA aujourd'hui épisode du 2025-12-27
    2025/12/27
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : mémoire pour agents IA, controverses sur l’IA générative, nouveau modèle GLM-4.7, partage Flus–Mastodon, rationalité humaine vue par l’IA, Tesla vs Waymo et l’app 1minAI.On commence avec MemMachine, une couche de mémoire universelle pour agents. Elle fournit un stockage et une récupération de souvenirs évolutifs, extensibles et interopérables, qui persistent entre sessions, agents et modèles. Objectif: permettre aux applis d’apprendre des interactions passées et d’affiner un profil utilisateur utilisable par différents systèmes. Côté mise en œuvre, MemMachine est disponible en conteneur Docker et en package Python, avec un guide “Hello World”. Le projet est sous licence Apache 2.0 et ouvert aux contributions; la communauté est active sur Discord.Virage critique ensuite: plusieurs griefs visent l’IA générative, ChatGPT en tête. Coûts environnementaux élevés — électricité, métaux rares, eau — et jeux de données souvent collectés sans consentement. Des entreprises s’en servent pour justifier des licenciements, tandis que la production de contenus peut nourrir la désinformation. Autre effet pointé: le “deskilling”, perte d’esprit critique et d’autonomie cognitive chez les utilisateurs. Des chatbots ont été associés à des comportements dangereux, jusqu’à des cas de suicide. Faute de régulation stricte, ces outils se diffusent, sans pour autant mener à l’AGI. Ils bousculent l’emploi et la vie privée, et peuvent dégrader la qualité du travail en automatisant le répétitif.Cap sur GLM-4.7, dévoilé par Z.ai juste avant Noël. Ce LLM open-source cible des environnements de développement réels: tâches longues, appels d’outils fréquents et exigence de stabilité. Bâti sur GLM-4.6, il renforce les flux de codage, le raisonnement complexe et l’exécution de type agent. Il prend en charge les schémas “penser-puis-agir” dans Claude Code, Cline, Roo Code, TRAE et Kilo Code. Sur 100 tâches de programmation réelles évaluées dans Claude Code, il améliore le taux d’achèvement et la cohérence par rapport à 4.6 et devient le modèle par défaut du GLM Coding Plan. Résultats publics: 67,5 sur BrowseComp et 87,4 sur τ²-Bench, le plus haut score rapporté parmi les modèles open-source disponibles. Il progresse aussi en front-end, produisant des mises en page plus cohérentes. Disponible via l’API BigModel.cn et intégré à l’environnement full-stack de z.ai, il est adopté par TRAE, Cerebras, YouWare, Vercel, OpenRouter et CodeBuddy.Côté outils du quotidien, Flus facilite désormais le partage vers Mastodon. Il suffit de connecter son compte en indiquant l’adresse de son serveur. Les messages peuvent être personnalisés — titre, lien, notes — avec un compteur pour rester sous les 500 caractères. L’extension navigateur ne publie pas directement, mais ouvre rapidement la page de partage sur la plateforme web. De quoi fluidifier la veille et la diffusion de liens.Sur le plan cognitif, une étude montre que des modèles comme ChatGPT et Claude attribuent trop de rationalité aux humains dans des contextes stratégiques. Testés via le “concours de beauté” keynésien, ici “Devinez le Nombre” — choisir entre 0 et 100, le gagnant étant le plus proche de la moitié de la moyenne — les modèles ajustent leurs choix selon le profil d’adversaires décrits, d’étudiants à théoriciens des jeux. Pourtant, ils “jouent trop intelligemment” et ratent souvent la cible. Ils s’adaptent à l’âge ou l’expérience, mais peinent à repérer des stratégies dominantes en duels. Ces résultats rejoignent d’autres constats: précision limitée d’ensemble et capacité à imiter des traits humains, avec un risque de manipulation. Enjeu: mieux calibrer l’IA au comportement réel.Dans l’automobile, Elon Musk estime dépassées les positions d’Andrej Karpathy sur l’IA de Tesla et affirme des progrès depuis son départ. Il met en avant un meilleur “niveau d’intelligence par gigaoctet”, soit une utilisation plus efficace des données, soutenue par des gains de capacité et de vitesse d’apprentissage. Atout revendiqué: les données issues de millions de Tesla sur route, fournissant un flux continu et varié, à l’opposé de tests en laboratoire. Des visuels partagés montrent un écart grandissant avec des concurrents comme Waymo. Musk souligne un apprentissage et des mises à jour en continu fondés sur les kilomètres parcourus.Enfin, 1minAI réunit plusieurs modèles — ChatGPT, DALLE, GoogleAI, Anthropic, Midjourney — dans une interface unique. L’app gère texte‑vers‑parole avec choix de voix, traduction audio, transcription, génération d’images et mise à l’échelle pour améliorer la résolution. Elle permet d’orchestrer simultanément différents ...
    続きを読む 一部表示
    6 分
  • L'IA aujourd'hui épisode du 2025-12-26
    2025/12/26
    Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : hôpitaux et IA en duo, régulation États-Unis/Chine, qualité du code généré, culture cassette face au streaming, IA et casse-tête de jeu vidéo, et nouvelle plainte d’auteurs contre des géants de l’IA.D’abord, la santé. Des travaux récents mettent en avant la collaboration bidirectionnelle entre médecins et IA dans l’évaluation des tumeurs cérébrales. L’idée n’est pas de remplacer l’expertise clinique, mais de la renforcer. Les spécialistes apportent le contexte médical et la lecture des cas complexes, tandis que l’IA traite rapidement des volumes d’images et de données, propose des analyses et des pistes de diagnostic. Résultat rapporté: de meilleures performances à la fois pour les équipes humaines et pour les agents IA, avec des évaluations plus précises et plus rapides. Cette approche, qui combine jugement clinique et calcul intensif, est présentée comme un levier d’amélioration des décisions, avec l’objectif final d’améliorer la prise en charge des patients.Changement de décor: la régulation. Aux États-Unis, les entreprises d’IA évoluent encore dans un cadre largement auto-régulé au niveau fédéral. En Chine, l’encadrement est bien plus strict. Selon un rapport détaillé, les modèles doivent réussir une batterie de 2 000 questions, fréquemment mises à jour, avec un taux de refus d’au moins 95 % sur les requêtes jugées interdites, comme celles relatives au massacre de Tiananmen ou aux violations des droits humains. Ce filtrage s’accompagne d’objectifs de sécurité, par exemple limiter le partage de contenus violents ou pornographiques et prévenir l’auto-mutilation via les chatbots. Un contraste net avec les pratiques américaines, où ces problématiques restent un sujet de mise à niveau continue des systèmes.Cap maintenant sur la qualité du code. Une étude du Model Evaluation & Threat Research indique que le code généré par IA comporte davantage de problèmes que celui écrit par des développeurs: 10,83 problèmes en moyenne pour des tâches d’extraction avec IA, contre 6,45 pour du code humain. Les auteurs notent aussi un ralentissement: des développeurs outillés par l’IA ont mis 19 % de temps en plus pour achever leurs tâches, tout en ayant le sentiment d’aller plus vite. Dans le même temps, Satya Nadella a indiqué que 20 à 30 % du code de Microsoft est désormais généré par IA, ce qui interroge sur la dépendance aux outils et la fiabilité en production.Sur le terrain culturel, un récit témoigne d’un retour aux cassettes et, plus largement, aux médias physiques. Au Japon, où l’achat en magasin reste fort, la cassette n’a jamais disparu. À Tokyo, dans le quartier de Shimokitazawa, des rayons s’entassent jusque sur un vieux piano, et à Nakameguro une boutique affiche un ratio d’environ 10 cassettes pour 1 vinyle. L’auteur y achète un walkman bon marché, coque transparente, et privilégie une écoute hors ligne. En toile de fond, des utilisateurs disent quitter Spotify; des artistes auraient retiré leur musique pour protester contre des publicités de recrutement pour l’ICE et des liens avec des drones militaires; publier ses “Wrapped” serait devenu gênant. Beaucoup se tournent vers Bandcamp, la duplication de cassettes et les mixtapes. L’argument: retrouver une écoute intentionnelle, loin de la réduction de “friction” propre au streaming et de contenus générés par IA perçus comme standardisés, tout en soutenant directement les créateurs.Côté capacités de raisonnement, un casse-tête visuel inspiré d’un Zelda a servi de test. La règle: frapper un bloc rouge ou bleu inverse la couleur des blocs adjacents; objectif, tout mettre en bleu. Sans accès Internet pendant l’essai, Google Gemini 3 Pro a souvent trouvé la solution, mais parfois au terme de longues séquences d’essais, jusqu’à 42 pages. GPT-5.2-Thinking a résolu correctement et rapidement les variantes, de façon répétée. Claude Opus 4.5 a d’abord échoué à bien interpréter l’image; après explications, il a calculé la bonne solution via une équation. En projection, des agents pourraient automatiser la création de guides de jeux: l’exemple NitroGen de Nvidia joue, capture, documente, puis transmet à un rédacteur. Une approche transposable à d’autres logiciels nécessitant de la documentation.Enfin, le juridique. Le journaliste John Carreyrou et cinq auteurs ont déposé plainte contre xAI, Anthropic, Google, OpenAI, Meta et Perplexity, accusant un entraînement de modèles sur des œuvres protégées sans consentement. Particularité: une stratégie de plaintes individuelles plutôt que des actions collectives, pour éviter des règlements à bas coût sur des milliers de cas. C’est la première fois que xAI est visée dans ce type de dossier. ...
    続きを読む 一部表示
    6 分