
Ia·18 min
Construire un dataset pour un agent IA offensif : distillation, QLoRA, DPO et coûts réels
Bases publiques et licences, distillation teacher-student sans hallucination, multiplication d'exemples à partir d'une seule trajectoire, et le vrai prix du fine-tuning (QLoRA, DPO, GPU) d'un agent de sécurité offensive.
Oown2pwn