Archives par mot-clé : ai

DeepSeek : 12 000 Clés API Exposées — L’IA, nouvelle faille de sécurité ?

Une récente analyse a révélé qu’environ 12 000 clés API, mots de passe et jetons d’authentification ont été accidentellement exposés lors de l’entraînement du modèle d’IA de DeepSeek sur des données accessibles en ligne. Cette fuite met en évidence les risques liés à l’utilisation de données publiques pour l’entraînement des modèles d’intelligence artificielle (IA).

Une fuite de grande ampleur

L’incident concerne un jeu de données issu de Common Crawl, une bibliothèque publique qui archive des copies de pages web du monde entier. En décembre 2024, une analyse de ce jeu de données, représentant 400 téraoctets et comprenant 47,5 millions de sites et 2,67 milliards de pages, a permis d’identifier une quantité alarmante d’informations sensibles.

Les chercheurs ont découvert près de 12 000 clés API et informations d’authentification valides. Ces clés donnaient accès à des services critiques comme Amazon Web Services (AWS), Slack et Mailchimp. Une partie des informations trouvées était directement intégrée dans le code source des pages HTML, exposée sans aucune protection.

Un cas frappant concerne une clé API de WalkScore, retrouvée 57 029 fois sur 1 871 sous-domaines différents. Cette diffusion massive d’une seule clé démontre le manque de contrôle dans la gestion des informations sensibles par certaines entreprises.

Une mauvaise gestion des clés API

L’analyse a montré que 63 % des clés d’accès étaient réutilisées dans plusieurs environnements, augmentant considérablement le risque d’attaques en cascade. Si une clé compromise est utilisée sur plusieurs services, un attaquant pourrait exploiter cette faille pour pénétrer plusieurs systèmes simultanément.

Le cas de Mailchimp est particulièrement préoccupant : plus de 1 500 clés API ont été retrouvées dans le jeu de données, directement accessibles dans le code côté client. Une clé Mailchimp exposée pourrait permettre à un pirate d’envoyer des emails de phishing depuis le compte légitime d’une entreprise, augmentant ainsi le taux de réussite des attaques.

Certaines pages web contenaient même des informations de connexion root (administrateur), offrant potentiellement à un attaquant un contrôle total sur le système cible. Une telle situation pourrait entraîner des conséquences dévastatrices, comme la perte de contrôle d’une infrastructure critique.

Le problème structurel de l’entraînement des modèles d’IA

Ce type de fuite met en lumière une faille structurelle dans le développement des modèles d’IA. Les modèles comme DeepSeek sont entraînés sur de vastes ensembles de données issues d’internet, incluant des bases de code, des forums de développeurs et des bases de données publiques. Ces ensembles de données contiennent souvent, par négligence, des informations sensibles comme des clés API ou des mots de passe.

Lorsque ces modèles sont entraînés sur des données contenant des failles de sécurité, ils peuvent reproduire ces vulnérabilités dans le code généré. Certains modèles de langage, comme GitHub Copilot, sont capables de suggérer des clés API ou des mots de passe dans le code généré, simplement parce qu’ils ont été entraînés sur des données comportant ce type d’information.

Cette capacité des modèles d’IA à « imiter » les failles de sécurité pose un défi majeur. Si un modèle reproduit ces vulnérabilités dans un code déployé en production, le risque de voir des attaques ciblées se multiplier devient réel.

Un risque de propagation des failles

L’absorption de données vulnérables par des modèles d’IA soulève le risque d’une propagation des failles à grande échelle. Si un modèle d’IA intègre des clés API ou des mots de passe dans le code qu’il génère, les conséquences pourraient être catastrophiques. Un attaquant pourrait alors exploiter ce code vulnérable pour infiltrer plusieurs systèmes, ouvrant la voie à des attaques en cascade.

Un modèle d’IA entraîné sur des données contenant des failles pourrait également influencer les développeurs à adopter des pratiques risquées, simplement en générant du code qui reproduit ces vulnérabilités.

Vasa-1 : un nouveau modèle d’ia pour créer des avatars animés à partir d’une photo

Microsoft Research Asia a récemment dévoilé VASA-1, un modèle d’intelligence artificielle capable de transformer une simple photo en vidéo animée.

Microsoft a donc décidé de se transformer en Skynet et a tiré sur toutes les ficelles liées à l’IA. Nouveauté du moment, Vasa-1. Cette technologie, présentée par Microsoft Research Asia utilise un fragment audio pour donner vie à une image. Le modèle est conçu pour créer des avatars vidéo réalistes, ce qui peut révolutionner la manière dont nous interagissons avec les médias numériques. C’est surtout inquiétant de se dire que des chercheurs continuent de travailler sur des solutions qui seront rapidement détournées. La régulation concernant l’IA étant moins draconienne en Asie qu’en Europe et aux USA, voilà peut-être pourquoi nos apprentis sorciers de l’IA se sont penchés sur cette possibilité.

Applications potentielles de vasa-1

Selon le rapport de recherche accompagnant la présentation du modèle, VASA-1 ouvre la possibilité de participer à des réunions virtuelles avec des avatars qui reproduisent fidèlement les comportements humains lors d’une conversation. Ca fera beaucoup rire cette comptable qui a été piégée, voilà quelques semaines, dans un tchat vidéo par des pirates et les avatars générés par l’IA. Bref, Vasa-1 soulève des questions sur son utilisation pour manipuler des vidéos afin de faire dire n’importe quoi à n’importe qui.

Comment fonctionne le modèle vasa-1 ?

VASA-1 repose sur l’apprentissage automatique pour analyser une photo statique et générer des vidéos animées réalistes. Le modèle ne clone pas les voix mais anime l’avatar en fonction des sons existants. Il peut ajouter des mouvements de tête, des tics faciaux, et d’autres nuances comportementales qui rendent l’animation étonnamment réelle. Un paradis pour deepfake, des vidéos malveillantes générées par l’IA ?

Le défi des deepfakes

La création de deepfakes, ou hyper-trucages, n’est pas une nouveauté. Cependant, l’approche de VASA-1, qui utilise une seule photo pour y incorporer des émotions et des comportements, est relativement nouvelle. Le modèle se distingue également par une excellente synchronisation labiale et la représentation de mouvements réalistes. Pour son développement, Microsoft Research a utilisé VoxCeleb2, un vaste ensemble de données composé de clips vidéo de célébrités issus de YouTube. Les célébrités ont-elles donné leurs accords pour que leur image et leur voix soient exploitées ? Dans sa démonstration Microsoft Asia a utilisé des portraits générés par StyleGAN2 ou DALL·E-3. « Il s’agit uniquement d’une démonstration de recherche et il n’y a pas de plan de sortie de produit ou d’API. » confirment les 9 chercheurs.

Le potentiel d’abus de VASA-1 est une préoccupation majeure, ce qui explique pourquoi Microsoft a décidé de ne pas publier le code du modèle pour le moment. En combinaison avec la technologie de clonage vocal, des individus mal intentionnés pourraient l’utiliser pour falsifier des vidéos de réunions, menant à des tentatives d’extorsion ou à la propagation de fausses informations. Bref à suivre ! « I’ll be back » dirait même une création de Skynet !