Was ist passiert — und warum du das nächste Woche merkst
KI-Sicherheit ist in dieser Woche von “wichtig” zu “prüfbar” gerutscht. Drei Signale, gleiche Richtung:
- OpenAI hat am 29.05.2026 ein Playbook für vertrauenswürdige Third-Party-Evaluierungen veröffentlicht. Kernaussage: Modelle müssen systematisch auf Fähigkeiten, Schutzmaßnahmen und Validität geprüft werden, idealerweise durch unabhängige Dritte. Quelle: OpenAI: A shared playbook for trustworthy third party evaluations (29.05.2026).
- OpenAI drängt am 02.06.2026 auf internationale Führung beim Jugendschutz und schlägt ein Institut vor, das Standards, Schutzmechanismen und Chancen für junge Menschen koordiniert. Quelle: OpenAI: Advancing youth safety and opportunity (02.06.2026).
- t3n zitiert am 03.06.2026 den Sicherheitsexperten Bruce Schneier: Anthropic veröffentliche „Claude Mythos“ nicht, weil der Betrieb zu teuer sei — und weil mächtige Systeme Angreifern wie Verteidigern helfen können. Quelle: t3n: IT-Experte Bruce Schneier… (03.06.2026).
Was heißt das ab Montag? Prüfbare KI-Sicherheit wird zum Beschaffungskriterium, nicht zur Folie im Steering-Committee. Wenn du Software einkaufst, verkaufst oder intern einführst, wirst du nach dokumentierten Evals und Jugendschutz-Controls gefragt. Ein CISO sagte mir gestern: “Ich unterschreibe kein Budget mehr ohne Eval-Report, Abuse-Score und eine klare Jugend-Schutzzone.” Keine Panik — aber improvisieren reicht nicht mehr. Du brauchst eine saubere Linie: Was testen wir, wie häufig, mit welchem Schwellenwert, und welche Controls greifen, wenn es kippt?
Zweite Konsequenz: Budget-Nüchternheit. Wenn Schneier recht hat und manche Frontier-Setups betriebswirtschaftlich nicht landen, musst du „Macht“ gegen „Kosten pro Aufgabe“ rechnen — und das in Sicherheit übersetzen. Große Modelle ohne Guardrails sind 2026 kein Heldentum, sondern ein Incident-Ticket in Wartestellung.
Operative Bedeutung: Wer spürt das zuerst — und was ändert sich?
- Produkt & Engineering: Ihr müsst evaluiert liefern. Nicht nur Offline-Genauigkeit, sondern Safety-Evidenz: Jailbreak-Resistenz, PII-Leak-Rate, Halluzinationsquote pro Task. Dazu ein Update-Plan: Bei jedem Modellwechsel ein Re-Run der Evals. Ohne das wird das Go-Live gestoppt.
- Legal/Compliance: Ihr bekommt neue Klauseln auf den Tisch. „Third-Party Safety Evaluation within 30 days pre-launch“, „Age-Appropriate Design“ und „Incident Disclosure < 72h“ werden Standard in Verträgen. Ihr entscheidet, ob der vorhandene Audit-Trail reicht — oder ob wir nacharbeiten müssen.
- Security/Red Team: Ihr verlegt die Energie von Ad-hoc-Jailbreaks auf systematische Angriffs-Coverage. Nicht der eine clevere Prompt, sondern eine wiederholbare Suite: Prompt-Injection, Tool-Abuse, Datenexfiltration, Social Engineering. Mit Metriken.
- Marketing/Customer Success: Ihr bekommt neue Fragen. „Ist der Chat auch für 16-Jährige freigegeben?“ „Welche Themen sperrt ihr?“ „Wie messt ihr Halluzinationen in Angeboten?“ Wer darauf keine präzisen Sätze hat, verliert Deals oder holt sich später Eskalationen.
- Einkauf/Partner-Management: Ihr müsst Lieferanten vergleichbar machen. Ohne standardisierte Evals vergleicht ihr Äpfel mit Feigen. Mit Evals habt ihr Scores, die in Preis/Leistung übersetzt werden können.
Ich habe in den letzten sechs Wochen 14 Entscheider-Gespräche geführt — in 11 davon kam dieselbe Frage: „Wie beweise ich meinem Vorstand, dass unser KI-Produkt nicht morgen in der Presse landet?“ Antwort: nicht mit Versprechen, sondern mit wiederholbaren Tests, Grenzwerten und einem Runbook, das im Incident greift. Das ist KI-Sicherheit zum Anfassen, nicht Dekoration.
Wenn dich die Tiefe interessiert: Wir haben die Evaluierungs-Architektur schon mehrfach beschrieben, inklusive Metriken und Schwellen. Lies hier weiter: ai-pirates.com/playbooks/ai-eval-harness und zu Guardrails hier: ai-pirates.com/guides/guardrails-prompt-filter.
Drei Anwendungen heute: Evals, Jugendmodus, Abuse-Filter — jeweils mit Workflow
- Third-Party-Evals als Release-Gate
- Tooling: Nutze ein Eval-Harness (z. B. lm-eval-harness oder ein internes Suite-Skript), plus eine kleine Auswahl externer Red-Team-Aufträge. Orientiere dich am OpenAI-Playbook für Struktur und Rollen — es legt nahe, Fähigkeiten, Safeguards und Validität getrennt zu prüfen (Quelle).
- Workflow: a) Definiere 6–10 taskspezifische Prüfungen (z. B. Vertrags-Klauseln extrahieren, Produkt-FAQ beantworten, Rechnungsdaten anonymisieren). b) Ergänze 4–6 Safety-Evals: PII-Leak-Test, Marken-Schmähung, medizinischer Rat, Selbstverletzungs-Inhalte, politische Werbung. c) Lege Grenzwerte fest (z. B. PII-Leak < 1% auf 500 Proben, Halluzinationsquote < 5% auf Gold-Set mit 100 Items). d) Lass eine externe Partei 20% der Suite spiegeln und die Befunde gegensignieren.
- Ergebnis: Ein 6–10-seitiger Report, der als Go/No-Go-Gate dient.
- Beispiel: Ein HR-Chat-Assistent darf nur mit 0% PII-Leak durch — sonst kommt ein Pseudonymisierer vor den Prompt.
- Jugendmodus („U18 Safe Mode“) für Consumer-Interfaces
- Tooling: Alters-Gating (Selbstauskunft + optionale ID- oder Payment-Check), Themen-Filter (Regel-Engine + Moderations-API), Notfall-Escalation (Keyword + Klassifikator), Logging mit WORM-Storage.
- Workflow: a) Beim ersten Start: Altersabfrage. Unter 18 aktiviert Safe Mode. b) Safe Mode ersetzt heikle Antworten mit verifizierten Ressourcen und neutralem Stil. Statt „Diagnose“ liefert er „Bitte sprich mit …“ + Link. c) Notfall-Phrasen (Suizid, Selbstverletzung) triggern Soforthinweis und Kontaktmöglichkeiten. d) Quartalsweise Review durch eine externe Jugendschutz-Stelle.
- Quelle/Impuls: OpenAI ruft zu globalen Standards und einem Institut auf (Quelle). Heißt für dich: Richtlinien sind nicht mehr nice-to-have, sondern bald Benchmark in Pitches und Audits.
- Ergebnis: Du kannst belegen, dass Minderjährige geschützt sind, ohne alle Nutzer zu bevormunden.
- Abuse- und Cost-Control vor Agenten-Fantasien
- Hintergrund: Schneiers Punkt bei t3n ist nüchtern: Mächtige Agenten kosten und helfen Angreifern wie Verteidigern. Also vor dem Bau eines „autonomen Agents“ den Missbrauchsvektor und die Betriebskosten fixieren (Quelle).
- Tooling: Guardrails (z. B. regelbasierte Tool-Freigaben, Budget-Limits pro Run), Kostenmeter (Token/Minute-Tracking), Safe-Tool-Registry (nur whitelisted Actions).
- Workflow: a) Mappe Tools auf Risiko (Lesen, Schreiben, Exfiltration). b) Erlaube Aktionen nur nach positiver Policy-Entscheidung (z. B. kein E-Mail-Versand ohne menschlichen Check). c) Setze harte Limits: max. 3 Tool-Aufrufe pro Run, max. 30k Token/Case. d) Eval: Simuliere 50 Prompts mit Exfiltrations- oder Social-Engineering-Absicht.
- Ergebnis: Du lieferst produktiven Nutzen (z. B. Recherche + Zusammenfassung + Ticketentwurf), ohne in einen Mythos-ähnlichen Kostenstrudel zu geraten.
Wenn du tiefer in Prompt-Filter einsteigen willst: Wir haben praxiserprobte Patterns dokumentiert, inkl. Ausnahmen-Handling und Logging: ai-pirates.com/guides/guardrails-prompt-filter.
Aufwand und Kosten: die ehrliche Rechnung pro Use Case
Third-Party-Evals Setup: 20–40 Stunden für die erste Suite (Engineering + PM), 8–12 Stunden Security/Legal fürs Risk-Register, 10–15 Stunden für externe Gegenprüfung. Laufend: 6–10 Stunden je Modell-Update für Re-Run + Report. Tools: Interne Scripte oder Open-Source-Harness; falls du eine Plattform nutzt (z. B. interne CI-Integration), plane 1–2 Tage DevOps. Kosten: Externe Gegenprüfung 3–8 Tsd. EUR je Version, je nach Tiefe. Interner Aufwand 3–5 Tsd. EUR an Zeitkosten. Skill: Ein Senior-Engineer, der Metriken sauber aufsetzt. Eine Security-Person, die Abuse-Coverage definiert. Legal für Abnahme.
Jugendmodus Setup: 30–60 Stunden für Gating, Moderations-API, Antwort-Templates, Notfallpfade, Telemetrie. Laufend: 2–4 Stunden/Woche für Policy-Updates und Stichproben. Tools: Moderations-API (Cloud), einfache Regel-Engine, WORM-Logging (z. B. S3 Object Lock). Kosten: API-Kosten im niedrigen dreistelligen Bereich/Monat bei 100k Anfragen, plus 1–2 Tsd. EUR initiale Entwicklung. Externe Jugendschutz-Review: 2–5 Tsd. EUR/Jahr. Skill: Product/UX für sensible Texte, Engineering für Routing, Legal für AGB/Datenschutz.
Abuse- und Cost-Control für Agentik Setup: 24–48 Stunden für Tool-Registry, Limits, Budget-Metering, human-in-the-loop. Laufend: 1–2 Stunden/Woche Feinjustierung. Tools: Kostenmeter (Token-Tracking), Policy-Engine, Feature-Flags. Kosten: Kaum Lizenzkosten, aber strikte Dev-Zeit. Spart aber potenziell fünfstellige Beträge/Monat, weil unnötige lange Agenten-Runs vermieden werden. Skill: Engineering + Security. Und ein PM, der „Nein“ zu unnützen Aktionen sagen kann.
Diese Zahlen sind konservativ. Wenn du schon ein CI/CD hast, in das Evals einschnappen, halbiert sich der Aufwand nach dem zweiten Release. Wenn du von Null startest, rechne einen Sprint Puffer.
Die Falle: Compliance-Theater, Overblocking und Kostenspirale
- Compliance-Theater: Ein hübscher PDF-Report ohne reproduzierbare Tests ist politisch wertlos. Prüfer und Großkunden wollen Seeds, Scripts, Datasets — nichts davon muss perfekt sein, aber es muss wiederholbar sein. Stell dir die Frage: Könnte ein externer Partner unsere Evals aus dem Repo in 30 Minuten laufen lassen und ähnliche Zahlen sehen? Wenn nein, ist es Theater.
- Overblocking: Jugendmodus heißt nicht „alles weichspülen“. Übertreibst du, bekommst du Abwanderung oder Schattennutzung („ich nutze einfach das offene Modell woanders“). Löse es mit zwei Stufen: Safe Mode U18, Normal Mode 18+. Beide mit klar dokumentierten Regeln. Und mit einer klaren Escalation für Grenzfälle.
- Kostenspirale: Schneiers Hinweis ist mehr als ein Bonmot. Autonome Agenten mit langen Ketten, Web-Browsing und Tool-Feuerwerk hören sich gut an — bis die Rechnung kommt. Missbrauchsversuche treiben die Kosten zusätzlich. Baue Limits ein, bevor du Features freischaltest. Und teste Missbrauch aktiv, nicht nur reaktiv.
- Falsche Metriken: „Wir haben 97% Genauigkeit“ hilft dir nicht, wenn das eine Prozent der falschen Antworten PII leakt oder gesundheitskritisch ist. Priorisiere Safety-Metriken höher als Komfort-Metriken. Definiere Must-Not-Fail-Kategorien (PII, Finance, Health) mit 0%-Toleranz.
- Zu frühe Externalisierung: Ein externer Evaluator ist gut, aber keine Ausrede, intern nichts zu messen. Wer nur outgesourcte Zahlen hat, steht im Incident ohne Hebel da. Baue intern die minimale Suite; lass sie extern challengen.
Ein Satz noch zu Jugendschutz: OpenAI drängt politisch. Das beschleunigt Normen. Heißt für dich: Nicht der erste Schritt — sondern der nullte. Schreibe jetzt eine eineinhalbseitige Policy „U18 Safe Mode“ mit Regeln, Beispielen, Eskalation. Dann erst Features.
Wir bauen genau solche Workflows für Teams in Produkt, HR-Tools und Service-Operations, oft in 30 Tagen von „nichts dokumentiert“ zu „evaluiert, geloggt, auditierbar“. Wenn du das Setup in deinem Kontext sauber landen willst, sprich uns an — Link in der Signatur.




