Cybersécurité IA

DeepSeek : 12 000 Clés API Exposées — L’IA, nouvelle faille de sécurité ?

Une récente analyse a révélé qu’environ 12 000 clés API, mots de passe et jetons d’authentification ont été accidentellement exposés lors de l’entraînement du modèle d’IA de DeepSeek sur des données accessibles en ligne. Cette fuite met en évidence les risques liés à l’utilisation de données publiques pour l’entraînement des modèles d’intelligence artificielle (IA).

Une récente analyse a révélé qu’environ 12 000 clés API, mots de passe et jetons d’authentification ont été accidentellement exposés lors de l’entraînement du modèle d’IA de DeepSeek sur des données accessibles en ligne. Cette fuite met en évidence les risques liés à l’utilisation de données publiques pour l’entraînement des modèles d’intelligence artificielle (IA).

Une fuite de grande ampleur

L’incident concerne un jeu de données issu de Common Crawl, une bibliothèque publique qui archive des copies de pages web du monde entier. En décembre 2024, une analyse de ce jeu de données, représentant 400 téraoctets et comprenant 47,5 millions de sites et 2,67 milliards de pages, a permis d’identifier une quantité alarmante d’informations sensibles.

Les chercheurs ont découvert près de 12 000 clés API et informations d’authentification valides. Ces clés donnaient accès à des services critiques comme Amazon Web Services (AWS), Slack et Mailchimp. Une partie des informations trouvées était directement intégrée dans le code source des pages HTML, exposée sans aucune protection.

Un cas frappant concerne une clé API de WalkScore, retrouvée 57 029 fois sur 1 871 sous-domaines différents. Cette diffusion massive d’une seule clé démontre le manque de contrôle dans la gestion des informations sensibles par certaines entreprises.

Une mauvaise gestion des clés API

L’analyse a montré que 63 % des clés d’accès étaient réutilisées dans plusieurs environnements, augmentant considérablement le risque d’attaques en cascade. Si une clé compromise est utilisée sur plusieurs services, un attaquant pourrait exploiter cette faille pour pénétrer plusieurs systèmes simultanément.

Le cas de Mailchimp est particulièrement préoccupant : plus de 1 500 clés API ont été retrouvées dans le jeu de données, directement accessibles dans le code côté client. Une clé Mailchimp exposée pourrait permettre à un pirate d’envoyer des emails de phishing depuis le compte légitime d’une entreprise, augmentant ainsi le taux de réussite des attaques.

Certaines pages web contenaient même des informations de connexion root (administrateur), offrant potentiellement à un attaquant un contrôle total sur le système cible. Une telle situation pourrait entraîner des conséquences dévastatrices, comme la perte de contrôle d’une infrastructure critique.

Le problème structurel de l’entraînement des modèles d’IA

Ce type de fuite met en lumière une faille structurelle dans le développement des modèles d’IA. Les modèles comme DeepSeek sont entraînés sur de vastes ensembles de données issues d’internet, incluant des bases de code, des forums de développeurs et des bases de données publiques. Ces ensembles de données contiennent souvent, par négligence, des informations sensibles comme des clés API ou des mots de passe.

Lorsque ces modèles sont entraînés sur des données contenant des failles de sécurité, ils peuvent reproduire ces vulnérabilités dans le code généré. Certains modèles de langage, comme GitHub Copilot, sont capables de suggérer des clés API ou des mots de passe dans le code généré, simplement parce qu’ils ont été entraînés sur des données comportant ce type d’information.

Cette capacité des modèles d’IA à « imiter » les failles de sécurité pose un défi majeur. Si un modèle reproduit ces vulnérabilités dans un code déployé en production, le risque de voir des attaques ciblées se multiplier devient réel.

Un risque de propagation des failles

L’absorption de données vulnérables par des modèles d’IA soulève le risque d’une propagation des failles à grande échelle. Si un modèle d’IA intègre des clés API ou des mots de passe dans le code qu’il génère, les conséquences pourraient être catastrophiques. Un attaquant pourrait alors exploiter ce code vulnérable pour infiltrer plusieurs systèmes, ouvrant la voie à des attaques en cascade.

Un modèle d’IA entraîné sur des données contenant des failles pourrait également influencer les développeurs à adopter des pratiques risquées, simplement en générant du code qui reproduit ces vulnérabilités.

Leave a Comment

You may also like

PUBLICITES

Autres sujets

Privacy Preference Center