appsec/pentest-automatise-ia.tsx

Pentest automatisé vs pentest humain : ce que l'IA change (et
ses limites)

Pentest IA, pentest autonome, agent IA de pentest : entre la hype et la réalité 2026. Ce que les agents savent vraiment faire, où ils butent encore, et pourquoi « pentest IA » cache souvent un simple scan avancé.

own2pwn·4 juin 2026·8 min de lecture

En 2025, un agent IA a grimpé numéro 1 du classement HackerOne aux États-Unis, devant des milliers de chasseurs de bugs humains. En 2026, on nous vend du « pentest IA » à tous les coins de page de vente — sauf que neuf fois sur dix, derrière le mot « IA », il y a un bon vieux scanner repeint en doré. Alors : l'agent IA de pentest va-t-il vraiment remplacer le pentester humain ? Spoiler : non, mais la réponse honnête est bien plus intéressante que le débat « humain contre machine ».

Morpheus : what if I told you AI won't replace pentesters — L'IA ne remplacera pas votre pentester. Mais elle va sérieusement changer son quotidien.

D'abord, mettons les mots dans le bon ordre

Le marketing mélange tout. Pour s'y retrouver, il faut distinguer trois choses qui n'ont ni le même fonctionnement, ni la même valeur, ni le même prix.

niveaux.txt

  1. Scanner de vulnérabilités  ->  signatures, déterministe, BEAUCOUP de bruit
  2. Agent IA de pentest        ->  raisonne, chaîne, EXPLOITE, valide
  3. Pentester humain           ->  créativité, logique métier, contexte business

Trois bêtes différentes. Le piège : vendre la ligne 1 au prix de la ligne 2.

Le scanner coche des cases (« ce port est ouvert », « cette lib est vieille »). Il ne prouve rien : il vous noie sous les alertes et vous laisse trier les faux positifs. On a détaillé cette différence ailleurs — voir pentest vs scan de vulnérabilités.

L'agent IA, lui, est un animal récent et nettement plus malin. Et c'est là que ça devient sérieux.

Ce que l'IA sait vraiment faire (et c'est bluffant)

L'automatisation, ce vieux rêve. Sauf qu'aujourd'hui la machine trouve (parfois) des failles toute seule.

Un agent de pentest moderne n'est pas un script qui lance nmap en boucle. Il fait de la reconnaissance, modélise la cible, échafaude des scénarios d'attaque, tente l'exploitation, puis valide la reproductibilité avant de remonter un finding. Et les chiffres 2026 ne sont pas du flan :

La vitesse — l'équipe XBOW rapporte avoir égalé une évaluation manuelle de 40 heures menée par un pentester senior… en 28 minutes.
Le chaînage — un agent a déroulé une chaîne d'exploitation de 48 étapes en autonomie, en partant d'une faille jugée « mineure » pour aller jusqu'à la compromission.
La technicité — repérer un cookie chiffré, reconnaître de l'AES-128 en mode CBC, identifier un padding oracle et casser le chiffrement : 17 minutes, en autonomie.

Pourquoi ça marche : l'architecture, pas la magie

Le secret de XBOW n'est pas « un GPT qui hacke ». C'est un coordinateur qui orchestre des centaines de petits agents spécialisés (un par vecteur d'attaque), plus un validateur déterministe qui confirme l'exploitabilité avant de remonter quoi que ce soit. C'est cette discipline qui fait tomber les faux positifs — pas la « créativité » du modèle.

Côté open-source, ça bouge aussi (très) vite. Help Net Security a testé début 2026 plusieurs frameworks autonomes : Shannon a « contourné le login, exfiltré les données, et fourni captures et logs pour le prouver ». Verdict de l'auteur : ces outils deviennent « difficiles à ignorer ». Quand un agent à 8 $ le run vous sort un PoC fonctionnel, on a clairement quitté l'ère du scanner.

Où l'IA bute (et ça ne se règle pas avec un meilleur prompt)

Maintenant, la douche froide — saine et nécessaire. Les mêmes benchmarks et tests terrain qui célèbrent l'IA documentent aussi, noir sur blanc, ses angles morts. Et ce sont précisément les choses qui font la valeur d'un pentest.

Surprised Pikachu : l'IA a raté toute la logique métier — « On a tout passé en 100 % IA. » : « L'agent a raté la logique métier. » Surprise.

La logique métier — comprendre qu'un utilisateur ne devrait pas pouvoir valider sa propre commande, s'auto-octroyer une remise ou consulter le dossier d'un autre client, ça demande de connaître le métier, pas seulement le code. Les tests 2026 sont unanimes : les agents ont une « vision tunnel » et passent à côté des failles de logique applicative.
La “hit list” — un agent excelle sur ce qu'il connaît (SQLi, XSS, IDOR évidents). Mais si le bug n'est pas dans sa liste — config bancale, abus de workflow, faille non-OWASP — il l'ignore tout simplement.
La créativité adverse — enchaîner trois failles anodines en une compromission majeure, contourner une logique de validation par un chemin que personne n'avait prévu : l'humain reste devant. Sur les épreuves « difficiles », les benchmarks publiés montrent des agents proches de 0 %.
Le jugement et le contexte — quel est l'impact réel de cette faille pour cette organisation, ses données, sa conformité ? L'IA hiérarchise mal ce qui compte vraiment pour votre business.

Le test terrain le plus parlant : face aux agents, le meilleur pentester humain a trouvé 13 failles contre 9, en appliquant justement du chaînage créatif et de la compréhension métier. L'IA gagne en volume et en vitesse ; l'humain garde la profondeur.

You shall not pass : l'humain face à la logique métier — La logique métier : la frontière que l'agent autonome ne franchit (toujours) pas seul.

Le piège marketing du « pentest IA »

Voici l'arnaque la plus courante de 2026. Un éditeur prend son scanner de vulnérabilités, lui colle une couche de LLM qui « résume joliment les alertes », et facture ça comme un pentest IA autonome. Vous payez le prix d'un agent, vous recevez une liste d'alertes. Et au prochain audit de conformité, vous découvrez que personne — ni humain, ni agent — n'a jamais exploité quoi que ce soit.

Les 3 questions qui démasquent un faux pentest IA

Y a-t-il exploitation réelle ? Un PoC qui prouve la faille, ou juste une alerte « potentielle » ?
Qui valide les findings ? Un validateur déterministe et/ou un humain, ou personne ?
La logique métier est-elle testée ? Si la réponse est « euh », c'est un scan, pas un pentest.

Scan, agent, humain : qui fait quoi ?

Critère	Scanner	Agent IA	Humain
Exploitation réelle	Non	Oui (PoC)	Oui
Vitesse / échelle	Élevée	Très élevée	Limitée
Logique métier	Non	Faible	Forte
Faux positifs	Beaucoup	Peu (si validateur)	Quasi nuls
Continuité	Périodique	Continue	Ponctuelle

La bonne combinaison : humain + agent, pas l'un OU l'autre

Opposer l'humain et l'IA, c'est se tromper de débat. Tous les retours 2026 convergent vers la même conclusion : l'approche hybride gagne. L'IA absorbe le volume et la fréquence ; l'humain garde la profondeur et le jugement. Les équipes qui combinent les deux battent systématiquement celles qui parient sur un seul camp.

continuite.txt

  MISSION HUMAINE          ENTRE DEUX MISSIONS          MISSION SUIVANTE
  (J0)                     (J+1 ... J+364)             (J+365)
  +-----------------+      +--------------------+      +-----------------+
  | scope, failles  |  ->  | l'agent rejoue le  |  ->  | l'humain creuse |
  | profondes, métier|     | scope a chaque deploy|    | le nouveau metier|
  +-----------------+      +--------------------+      +-----------------+
        ^                          ^                          ^
     profondeur               continuite                  profondeur

Le pentest humain pose la barre haut ; l'agent la maintient entre deux missions.

Concrètement, l'empilement qui marche :

Le pentester humain définit le scope, trouve les failles profondes et juge l'impact, lors d'une vraie mission — pentest web blackbox ou whitebox (ce que coûte une telle mission ? on chiffre le prix d'un test d'intrusion).
L'agent autonome rejoue ce scope à chaque déploiement, détecte les régressions et tient la continuité entre deux missions — au lieu de laisser l'appli sans aucun test pendant 12 mois.
Le SAST IA attrape les évidences dès le commit (voir SAST, DAST, IAST et l'IA).

L'angle own2pwn : l'agent prolonge l'humain

C'est exactement le modèle de SecAI : un agent de pentest autonome qui rejoue le scope du dernier pentest humain après chaque déploiement, avec priorisation par exploitabilité et SAST IA. Il ne remplace pas le pentester — il prolonge sa mission entre deux audits, là où, aujourd'hui, plus rien ne teste votre application.

À retenir

Les agents IA de pentest sont devenus réels et impressionnants en 2026 : chaînage long, exploitation autonome, vitesse hors de portée humaine.
Mais ils butent encore sur la logique métier, la créativité adverse et le jugement contextuel — le cœur d'un vrai pentest.
« Pentest IA » est souvent un scanner déguisé. Exigez exploitation réelle, validation et test de la logique métier.
La posture gagnante n'est pas humain ou IA, mais humain + agent : profondeur ponctuelle de l'un, continuité permanente de l'autre.

Bref : l'IA ne va pas mettre les pentesters au chômage. Elle va leur retirer le travail répétitif pour les laisser faire ce que la machine ne sait (toujours) pas faire — penser comme un attaquant qui connaît votre métier. Et ça, franchement, c'est une bonne nouvelle pour tout le monde. Sauf pour les éditeurs de scanners repeints en doré.