Was ist passiert – KI-Agenten im Feld, Governance im Rücken
KI-Agenten sind raus aus der Laber-Ecke. Am 4. Juni 2026 hat OpenAI veröffentlicht, wie Endava KI-Agenten, ChatGPT Enterprise und Codex einsetzt, um Software-Lieferung zu beschleunigen, Workflows zu automatisieren und eine AI-native Kultur zu bauen. Quelle: OpenAI x Endava (04.06.2026). Einen Tag davor legte OpenAI ein Governance-Papier für Frontier-AI vor – eine Skizze für eine bundesweite Regulierung in den USA rund um Sicherheit, Resilienz und nationale Sicherheit. Quelle: Frontier Safety Blueprint (03.06.2026).
Das ist dieselbe rote Linie: KI-Agenten gehen produktiv, aber ohne Leitplanken verbrennen Teams Zeit und Reputation. Ich habe in den letzten 6 Wochen 14 Entscheider-Gespräche geführt — in 11 davon kam dieselbe Frage: „Wie kriegen wir Agenten auf die Straße, ohne Compliance im Nacken zu haben?“ Endava liefert das operative Bild, OpenAI die politische Kulisse. Mehr brauchst du für eine belastbare Entscheidung im nächsten Quartal nicht: ein Referenzbetrieb und ein Regulierungs-Backlog.
Was wir sicher sagen können (ohne Marketing-Rauch): Endava nutzt Agenten plus ChatGPT Enterprise und Codex, um Software-Lieferung zu beschleunigen und Routinen zu automatisieren. Keine Zahlen, keine Magie, aber ein Muster: Aufgaben in Tickets, Agenten als Erstbearbeiter, Menschen als Reviewer, klare Übergaben. Und parallel Governance – intern, bevor extern gefordert.
Wenn du Struktur suchst: Unser komprimierter Einstieg ins Agenten-Handwerk steckt hier: AI Pirates: Agent Workflows – das Playbook. Und wer Governance nicht erst beim Audit anfassen will, fängt hier an: AI Pirates: AI-Governance-Checkliste.
Was bedeuten KI-Agenten und Blueprint operativ ab nächster Woche?
Die kurze Antwort aus der Praxis: Product Owner merken es zuerst, weil Tickets schneller durchs Board laufen — wenn jemand das Setup sauber fasst. Danach Security/Legal, weil die Fragen kommen, bevor das erste Incident-Ticket aufpoppt. Ops und PMO sehen es in Durchlaufzeiten und weniger Ping-Pong zwischen Teams.
Dein 1-Wochen-Plan, ohne Theater:
- Scope klein halten: ein Workflow, eine messbare Metrik (z. B. „Time-to-First-Response in Jira von 22h auf 6h“). Kein „Wir rollen KI im Unternehmen aus“. Ein Arbeitsgang, ein Agent.
- Datenzugriff klären: Welche Felder, welche Repos, welche Policies. Wer darf Logs sehen. Wer gibt das Go. Wenn das offen bleibt, stirbt das Projekt im Security-Review.
- Verantwortliche benennen: Owner auf Fachseite (PO), Owner auf Techseite (Dev Lead), Owner für Risk/Legal (Compliance-Patin). Drei Namen, nicht sechs.
- Messpunkte setzen: Baseline vor Start, wöchentlicher Check-in, eine KPI an die Wand. „Gefühlte Beschleunigung“ zählt nicht.
Politischer Rückenwind? Der OpenAI-Blueprint ist kein Gesetz, aber er zeigt, wohin die Reise regulatorisch geht: größere Systeme, mehr Aufmerksamkeit, Anforderungen an Sicherheit und Resilienz. Für dich heißt das: Dokumentiere, was der Agent tut, wie du ihn evaluierst und wie du abschaltest, wenn er Unsinn baut. Kein 50-Seiten-PDF — eine Seite Architektur, eine Seite Risiken, eine Seite Testfälle reicht für den Start. Der Rest wächst mit dem Einsatz.
Ein Dialog aus einem Projekt letzte Woche:
CTO: „Wir verlieren pro Woche einen Sprint-Tag an Ticket-Kleinkram.“
PM: „Gib mir einen Agenten, der vor-sortiert, ich hol’ die Fallbacks.“
Legal: „Und ich will wissen, wo die Daten landen.“
So startest du. Nicht mit einer Hochglanz-Folie über „AI-Transformation“.
Drei Workflows, die heute laufen — Tools, Schritte, Output
Du brauchst keinen Zoo an Tools. ChatGPT Enterprise plus die üblichen Verdächtigen (Jira, GitHub, Slack, ein bisschen Cloud-Funktion) reichen für drei wirkungsvolle Workflows. Beispiele, die wir mehrfach gebaut haben:
- Ticket-Triage in Jira/ServiceNow
- Zweck: Eingehende Tickets klassifizieren, duplizierte Issues erkennen, erste Antwort entwerfen.
- Tools: ChatGPT Enterprise (mit Unternehmensdatenzugriff), Jira/ServiceNow API, Slack für Handover, kleine Middleware (Cloud Function oder Make/Zapier).
- Schritte: a) Webhook auf „Ticket created“. b) Agent zieht Titel, Beschreibung, Anhänge. c) Klassifiziert nach Komponente/Team, prüft gegen ähnliche Tickets (JQL/ServiceNow Query). d) Entwurf einer Antwort mit Rückfragen; legt Draft-Comment an und weist zu. e) Wenn Risk-Flag (PII, rechtlich heikel), Auto-Tag „LEGAL-REVIEW“ und kein Autokommentar.
- Output: 30–60% der Tickets sauber vorsortiert, weniger Kontextwechsel. Realistisch: 5–10 Minuten pro Ticket gespart in Volumenbereichen.
- Pull-Request Co-Reviewer im Dev-Flow
- Zweck: Code-Änderungen zusammenfassen, Breaking Changes markieren, Testvorschläge generieren.
- Tools: GitHub/GitLab, ChatGPT Enterprise oder API, Codex-Erfahrung als Prompting-Leitplanke (Endava setzt Codex laut OpenAI ein), CI-Hook.
- Schritte: a) Hook auf „PR opened/updated“. b) Agent liest Diff, Projekt-README, relevante Tests. c) Generiert: Kurz-Zusammenfassung, potenzielle Risiken, 3–5 konkrete Testfälle. d) Postet als PR-Kommentar, tagged Reviewer. e) Wenn Low-Risk-Label und Tests grün, schlägt „Merge when green“ vor; Entscheidung bleibt beim Menschen.
- Output: Reviewer kommen schneller zum Punkt, weniger Leerlauf zwischen Pings. Kein Auto-Merge, aber bessere Erstsortierung.
- Policy-Radar für Governance
- Zweck: Externe Richtlinien und interne Policies verfolgen, Änderungen erkennen, To-dos erzeugen.
- Tools: ChatGPT Enterprise, eine Watchlist (Google Sheet/Notion), wöchentlicher Scheduler (Cloud), Slack/Email-Report.
- Schritte: a) Liste mit Quellen pflegen (z. B. Anbieter-Policy-Seiten, interne Confluence-Seiten). b) Agent zieht Inhalte, vergleicht Diff zur Vorwoche. c) Markiert Änderungen in Klartext, mappt auf interne Controls („Logging“, „Zugriffsrechte“, „Datenaufbewahrung“). d) Erzeugt Jira-Aufgaben pro Control-Bereich, Owner zuweisen.
- Output: Kein Governance-Überraschungsbrief am Quartalsende. Stattdessen ein 15-Minuten-Report montags.
Wenn du tiefer einsteigen willst: Wir haben die Agent-Rollen und Handover-Prompts in unserem Playbook strukturiert, damit nicht jeder Prompt zum Sonderfall wird: Agent Workflows – das Playbook.
Zeit, Kosten, Skills: die ehrliche Rechnung
Du willst Planungssicherheit. Hier ist die grobe, aber belastbare Kalkulation für je einen Workflow in einem 50–500-Personen-Tech-Team. Annahme: vorhandene Jira/GitHub/Slack-Instanzen, ChatGPT Enterprise lizenziert.
- Setup & Architektur (Owner: Tech Lead + PO): 6–8 Stunden. Scope, Datenflüsse, Freigaben, KPI.
- Implementierung Middleware (Owner: Dev/Automation): 10–16 Stunden. Webhooks, API-Calls, Secrets, einfache Retry/Logging.
- Prompt & Evaluation (Owner: Builder/Prompt-Engineer): 6–10 Stunden. 20–30 Testfälle, Klarheitsregeln, „refuse when“-Bedingungen.
- Security/Legal Check (Owner: Compliance): 3–6 Stunden. Datenzugriff, Aufbewahrung, Audit-Log.
- Rollout & Training (Owner: PO): 4–6 Stunden. 30-Minuten-Loom, 1h Q&A, Feedback-Schleife.
Summe: 29–46 Stunden bis zum ersten stabilen Agenten. In Kalendertagen: 7–10 Arbeitstage, wenn niemand drei Tage auf Freigaben wartet.
Kostenindikationen (DACH, interne Ressourcen):
- Dev/Automation: 100–140 €/h intern verrechnet.
- PO/Compliance: 80–120 €/h.
- LLM-Nutzung: marginal im Vergleich — bei 2.000–5.000 Requests/Monat meist < 200 €.
Total pro Workflow: 4.000–6.500 € interner Aufwand im ersten Monat. Laufend: 2–4 Stunden/Woche Pflege (Eval-Fälle, kleine Prompt-Anpassungen), also 800–1.200 €/Monat. Wer extern beschleunigen will, plant 1–2 Sprints mit Partnern ein, spart sich aber nicht die internen Freigaben.
Skill-Bedarf:
- Ein Dev, der Webhooks, APIs und Secrets kann.
- Ein PO, der „Was genau soll der Agent tun?“ wirklich beantwortet.
- Eine Person, die Risiken ernst nimmt, ohne sie zum Totschlagargument zu machen.
Nichts davon ist Rocket Science. Aber ohne Owner und KPI ist es ein schönes Bastelprojekt.
Die Falle: Governance als Feigenblatt oder als Bremse
Zwei Extrem-Fehler sehen wir ständig.
Fehler 1: „Wir sind Enterprise, also erst Governance, dann Use-Case.“ Ergebnis: 0 Live-Agenten nach 6 Monaten und Frust in den Fachbereichen. Der OpenAI-Blueprint zeigt Richtung, aber er ist kein Bremsschild. Baue Controls parallel mit — Logging, Abschalt-Knopf, einfache Evals — und halte den Scope klein. Dokumentiere auf einer Seite, nicht in einem Kompendium.
Fehler 2: „Wir shippen, und wenn’s brennt, rufen wir Legal.“ Ergebnis: Agenten erzeugen schöne Antworten mit vertraulichen Schnipseln, und plötzlich liegt Kundendaten-Mischmasch im Comment-Log. Das lässt sich vermeiden: „No-PII“-Regeln ins Prompting, sensible Felder maskieren, Zugriffe minimal halten. Und: Ein klarer Eskalationspfad. Wenn der Agent „unsicher“ ist, taggt er einen Menschen und schweigt nach außen.
Noch ein Klassiker: zu breite Anwendungsfälle. „Der PR-Agent bewertet Qualität“ ist zu vage. „Der PR-Agent listet Breaking Changes, Risiken und 3 Tests“ ist klar. Je enger der Auftrag, desto weniger Halluzinationen — und desto günstiger die Evaluierung.
Abhängigkeit von einem einzigen Anbieter ist die andere stille Falle. Der Blueprint erinnert daran, dass Regulierung kommen wird. Halte dir die Option offen, Modelle zu wechseln. Baue Trennung ein: dein Agent-Workflow (Webhooks, Routing, Policies) getrennt vom LLM-Call. Heute ChatGPT Enterprise, morgen etwas anderes? Möglich, wenn du nicht hart verdrahtest.
Wenn du tiefer in die Kontrollseite willst: Wir pflegen eine pragmatische Liste von Kontrollen, die Teams wirklich umsetzen, keine Elfenbeinturm-Punkte: AI-Governance-Checkliste.
Wir bauen genau solche Workflows für Produkt- und Tech-Teams in SaaS, E‑Commerce und Industrie — mit sauberer Handover-Logik zwischen Agent und Mensch. Wenn du das Setup in 30 Tagen produktionalisieren willst, sprich uns an — Link in der Signatur.
Quellen: OpenAI x Endava, Frontier Safety Blueprint.




