KI-Workflows mit Gedächtnis werden zum Standard. Nicht als Vision, sondern jetzt. Zwei Meldungen der letzten Woche schieben in dieselbe Richtung. Erstens: Die britische Regierung arbeitet mit Google DeepMind an einem Prototypen, der Planungsentscheidungen im Wohnungsbau beschleunigt (DeepMind, 16.06.2026). Zweitens: OpenAI zeigt anhand von Jason Lius Ansatz, wie man „long-running work“ mit Codex organisiert – also Projekte mit anhaltendem Kontext, Checkpoints und geordneter Fortführung über einzelne Prompts hinaus (OpenAI, 22.06.2026). Wenn Regierung und einer der großen Anbieter in dieselbe Kerbe schlagen, hat das Folgen für dich, dein Backlog und dein Operating Model.

Was ist passiert – und warum das kein PR-Stunt ist

Die Fakten zuerst. Am 16. Juni hat die britische Regierung eine Partnerschaft mit Google DeepMind publik gemacht. Ziel: ein KI-gestützter Prototyp, der Planungsentscheidungen für den Wohnungsbau schneller macht. Offiziell geht es um ein „AI-powered prototype aimed at faster housing decisions“. Kein fertiges Produkt, sondern ein validierter Weg, datenintensive, regelbasierte und textlastige Prüfketten zu beschleunigen. Eine Verwaltung stellt sich vor die Kamera und sagt: Wir testen KI im Kernprozess. Das ist neu in der Klarheit, und es betrifft einen Sektor mit hoher Regeltiefe.

Sechs Tage später erklärt OpenAI, wie Jason Liu Codex nutzt, um Arbeit über Prompt-Grenzen hinweg fortzuführen. Der Kern: Kontext festhalten, Aufgaben strukturieren, Zwischenstände sichern und die Maschine weitermachen lassen, wenn der Mensch gerade nicht tippt. Das ist kein bunter Demo-Bot. Das sind grundlegende Muster für KI-Workflows, die über Tage und Wochen laufen.

Mein Take: Beide Meldungen adressieren denselben Engpass – Entscheiden unter Dokumentenlast und Prozessreiterei. Wenn eine Regierung KI in Planungsentscheidungen schickt und OpenAI zeitgleich die Handgriffe für langlaufende Arbeit offenlegt, dann ist die Frage nicht mehr „ob“. Sondern: Welche deiner Prozesse profitieren, wenn eine Maschine sich erinnert, übergibt, wieder aufnimmt – und du das auditierbar bekommst.

Nächste Woche operativ: Wo KI-Workflows mit Gedächtnis in deinem Haus zuerst knallen

Ich habe in den letzten sechs Wochen 14 Entscheider-Gespräche geführt. In elf davon dieselbe Frage: „Wie behalten wir bei KI-Prozessen den roten Faden über mehrere Tage?“ Antwort: mit persistentem State, klaren Übergaben und einem Log, das ein Prüfer lesen kann. Das merkt man nächste Woche zuerst in den Teams, die heute schon Tickets, Mails und Doks jonglieren.

  • Deal Desk und Vertrieb: Angebote warten auf drei Freigaben? Preise, Ausnahmen, AGB-Anpassung? Ein Agent, der den Case über Slack/CRM begleitet, spart Tage. Er vergisst nicht, was Finance gestern abgenickt hat.
  • CapEx/Standort- und Genehmigungsprozesse: Interne Mini-Varianten des britischen Planungsverfahrens. Viele PDFs, Checklisten, kommunale Regeln. Ein Workflow, der Kriterien extrahiert, Vorlagen füllt, Rückfragen bündelt – und dabei einen Prüfpfad schreibt – bringt Tempo ohne Cowboy-Risiko.
  • Marketing Ops: Kampagnen laufen zwei Wochen. Ein „Gedächtnis“-Agent kennt Briefing, Assets, bereits freigegebene Claims und die Legal-Notizen von Dienstag. Er baut die fehlenden Bausteine und ruft dich nur zu sinnvollen Zeitpunkten.

Wer im Unternehmen das zuerst spürt: Operations-Leads, die SLA-Durchlaufzeiten verantworten. Projektmanager, die immer wieder denselben Status nachtragen. Legal/Compliance, die Auditierbarkeit einfordern. Und ja, der CMO, wenn statt 14 Slack-Pings ein sauberer Changelog auftaucht. Das ist nicht der erste Schritt – sondern der nullte: State und Logs vor Prompts. Wer das jetzt baut, kann im Q3 Prozesse wirklich aus dem E-Mail-Limbo holen.

Sieh dir als Grundlage unsere Playbooks zu Speicher- und Prüfpfaden an: ai-pirates.com/guides/agent-memory-patterns und das RAG-Grundgerüst für Dokumente: ai-pirates.com/playbooks/rag-blueprint.

Anwendung 1: Deal-Desk-Agent, der Angebote über Tage sauber durchzieht

Problem: Enterprise-Deals hängen fest, weil Finance, Legal und Sales Engineering asynchron arbeiten. Jede Abweichung von der Preisliste kostet drei Mails und zwei Tage. Der Kontext zerbröselt zwischen CRM, Slack und DocuSign.

Workflow, der funktioniert:

  1. Trigger: In HubSpot oder Salesforce wird ein „Exception Deal“ markiert. Ein Webhook legt einen Fall in Postgres an (Deal-ID, Kundendaten, Ausnahmetyp) und startet den Agent.
  2. Kontext holen: Der Agent zieht Angebotsversionen aus Google Drive/SharePoint, Terms aus der Knowledge Base, Preispolitik aus einem YAML-File. RAG nur für harte Referenzen, kein Halluzinieren.
  3. Aufgabenplan: Der Agent erzeugt einen To-do-Baum: „Finance Check“, „Legal Redlines“, „SE Machbarkeit“. Jedes To-do mit Zuständigem, Frist, benötigten Doks. Er postet das in einen Slack-Thread und pinnt die Checkliste.
  4. Long-running: Der Agent nutzt OpenAI Codex via API für Analyse, Entwürfe und Diff-Vorschläge. State liegt in Postgres (Deal-JSON), Zwischenstände in S3. Alle 6 Stunden Wake-up über Cron/Cloud Scheduler. Er prüft, was sich seit dem letzten Lauf geändert hat und arbeitet ab.
  5. Output:
  • Finance: konkrete Rabatt-Begründung, Marge, Genehmigungsstufe.
  • Legal: Redline-Vorschläge im DOCX, kommentiert mit Quellenverweis.
  • SE: Risiken als Bulletpoints mit „Go/No-Go“ und offenen Fragen.
  1. Übergabe: Wenn alle grün, erzeugt der Agent die finale Angebotsversion, legt eine Changelog-Notiz an und stößt DocuSign an.

Tool-Stack: OpenAI Codex API, Slack App, HubSpot/Salesforce API, Postgres, S3/Blob Storage, ein kleines Node/TypeScript-Backend. Realistische Output-Qualität: 70–80% der Vorarbeit automatisiert; finale 20–30% bleiben Fachentscheidung.

Anwendung 2: CapEx- und Genehmigungsprüfung, inspiriert vom UK-Planungsprototyp

Der DeepMind-Case ist öffentliches Planungsrecht. Im Unternehmen hast du ähnliche Reibung: Investitionsanträge, Standortfreigaben, Produktionslinien-Umrüstungen. Viele Regeln, viele PDFs, viel Historie.

Workflow, der Geschwindigkeit bringt und prüffähig bleibt:

  1. Intake: Upload eines Antrags als PDF + Anlagen in ein Portal. Automatische OCR, Strukturierung (Abschnitte, Tabellen). Einfache Felder werden vorbefüllt (Projektwert, Standort, verantwortliche Person, Datum).
  2. Kriterien-Mapping: Die Regelbasis liegt als YAML/JSON mit Paragraphenverweisen. Der Agent mappt Antrag → Kriterien, markiert Lücken („Fehlt: Brandschutz-Nachweis Anlage B“) und generiert eine Liste offener Punkte mit Quellverweis.
  3. Retrieval: Vorfälle aus der Vergangenheit, ähnliche Anträge, Lessons Learned. Ein dedizierter Index liefert Beispiele und Entscheidungen. Keine generischen Vektor-DBs ohne Kuratierung; kuratierte Sammlungen schlagen Roh-Semantik.
  4. Entwurf & Fragen: Der Agent erstellt einen ersten Prüfbericht mit Scoring, Risiken, Rückfragen an den Antragsteller. Jeder Absatz hat einen Link zum zugrundeliegenden Dokument-Abschnitt.
  5. Long-running: Der Fall lebt über Wochen. Jede neue Anlage wird erkannt, neu bewertet und in den Bericht eingewoben. Der Agent dokumentiert Änderungen automatisch: „Version 0.4 → Abschnitt Brandschutz aktualisiert“. Kein Mensch muss changelogs malen.

Tools: OpenAI Codex für Extraktion/Generierung, ein RAG-Index aus deinem DMS, Postgres + Files, ein Review-Frontend (Next.js). Output: konsistente Erstbewertung in Stunden statt Tagen, weniger Ping-Pong. Und ein Audit-Log, das einem Prüfer standhält.

Wenn du das aufsetzen willst, starte klein. Nimm 10–20 historische Fälle und ein klares Kriterien-Set. Miss dann drei Zahlen: Erstbearbeitungszeit, Zahl der Rückfragen, Quote der Erstfreigaben. Ohne diese Baseline wird jeder „KI-Beschleuniger“ zum Bauchgefühl.

Sieh dir unsere Fallstudie zu Prozess-Workflows an: ai-pirates.com/cases/deal-desk-automation.

Anwendung 3: Marketing-Produktionslauf mit persistenter Markenlogik

Viele Marketing-Teams testen Einzelprompts. Der Effekt verpufft, sobald Briefings, Korrekturen und Freigaben über zwei Wochen laufen. Ein KI-Workflow mit Gedächtnis zieht das durch – ohne dass du jeden Dienstag die Styleguides neu einflüsterst.

Workflow, der nicht nervt:

  1. Setup: Brand-Guidelines als maschinenlesbare Regeln (Tonalität, Tabus, Do/Don'ts) und Beispiele als Gold-Standard. Hinterlegt in Git/Repo, versioniert.
  2. Sprintstart: Kampagnenbriefing landet in Notion/Jira. Ein Agent generiert Asset-Backlog: Landingpage-Entwurf, drei E-Mail-Varianten, fünf LinkedIn-Posts, zwei Anzeigen. Er referenziert Gold-Standards direkt bei jedem Asset.
  3. Long-running: Der Agent arbeitet in 24h-Zyklen. Er holt Freigaben, passt Texte an, behält verbotene Claims im Blick. Wenn Legal „kein Superlativ“ kommentiert, propagiert der Agent das in alle offenen Assets und protokolliert die Änderung.
  4. Output & Handoff: Final-Assets gehen in Figma/Google Docs, inklusive Changelog und Quellen. Redaktionsplan wird automatisch aktualisiert.

Tool-Stack: OpenAI Codex, Notion oder Jira, Git für Styleguides, Figma/Docs, ein dünnes Orchestrierungs-Backend. Erwartbare Wirkung: 30–50% Zeitersparnis bei gleichmäßigerer Qualität, weniger Freigabe-Schleifen. Kein Zauber. Nur weniger Kontextverlust.

Kosten & Setup: ehrliche Rechnung für KI-Workflows

Rechne das nüchtern durch. Ein MVP für einen der oben skizzierten KI-Workflows braucht:

  • Build: 80–120 Entwicklerstunden für Backend, Speicher, Integrationen, einfache UI. Bei 120 €/h sind das 9.600–14.400 €.
  • Prompt- und Regelarbeit: 20–40 Stunden Fachteam. Real: 2–3 Workshops à 3h plus Asynchro. 0–5.000 €, je nach interner Verrechnung.
  • Infrastruktur: 250–600 € pro Monat für Hosting (DB, Storage, Scheduler) bei Cloud-Anbietern. Mehr, wenn ihr On-Prem wollt.
  • Modellkosten: Stark abhängig von Volumen. Beispiel Deal Desk: 30 aktive Fälle/Monat, je 10 Läufe à 50k Tokens → grob 15 Mio Tokens. Selbst mit großzügigen Preisen bleibst du in der Regel im niedrigen dreistelligen Bereich pro Monat. Konkrete Preise bitte mit deinem Anbieter kalkulieren.
  • Change & Enablement: 10–20 Stunden für Schulung, SOPs, „Was loggen wir, was nicht?“. Teuer, wenn du es weglässt.

Zeit bis Go-live: 3–5 Wochen für ein Team, das APIs schon kennt. Wenn jede Integration Neuland ist, plane 6–8 Wochen. Skill-Bedarf: 1 Full-Stack-Dev, 1 Product/PM, 1 Domänen-Owner, optional 1 Data/ML für RAG-Index. Keine Forschungsabteilung nötig, aber Disziplin bei Logs, Versionierung und Sicherheitsfreigaben.

Wichtig: Baue zuerst den State und das Audit-Log. Klingt langweilig, spart dir später die halbe Woche, wenn Legal fragt, „wo steht, warum der Satz geändert wurde?“ Genau da trennt sich Demo von Betrieb.

Die Fallen: Auditierbarkeit, Gedächtnis-Bloat, Datenschutz – und wann du wartest

Die häufigsten Fehler sehe ich immer wieder.

  • Kein echtes Gedächtnis, nur langer Prompt. Das skaliert eine Woche, dann bricht es. Persistenter State in einer DB ist Pflicht. Speichere strukturierte Artefakte, nicht nur Freitext.
  • Keine Quellenverweise. Ohne Link zum Absatz im Originaldokument ist jede Aussage im Streitfall wertlos. Der DeepMind-Planungsansatz setzt genau auf diese Verankerung. Übertrag das 1:1.
  • Memory-Bloat. Wenn du alles speicherst, findest du nichts. Lege Drop-Regeln fest: Was bleibt im „Case Memory“, was wird komprimiert, was kommt ins Archiv? Sonst frisst dich dein eigenes Log.
  • Shadow-IT bei PII. Langlaufende Fälle enthalten Personen- und Vertragsdaten. Vor Livegang: Datenfluss-Diagramm, Auftragsverarbeitung prüfen, Red-Teaming. Sonst wird aus Tempo ein Risiko.
  • Zu früh automatisieren. Wenn dein Prozesschaos noch lebt, skaliert KI nur das Chaos. Erst Standardarbeit fixieren, dann automatisieren. Ein CISO sagte mir letzte Woche: „Unser bester Beschleuniger war das Streichen von vier Freigabestufen.“ Recht hat er.

Wann ist es zu früh? Wenn du keine 10–20 historischen Fälle in ordentlicher Qualität hast, um ein Regelwerk zu testen. Wenn dein Fachteam keine Zeit hat, Entscheidungen zu labeln. Wenn die Kern-Integration (CRM, DMS, Slack) noch wackelt. Dann bau erst das Fundament – oder du verwechselst Proof-of-Concept mit Produktion.

Wenn du tiefer einsteigen willst: Wir haben ein kompaktes Template für Audit-Logs und Changelogs in Agent-Workflows dokumentiert: ai-pirates.com/guides/agent-audit-log.

Zum Schluss die Brücke zur Praxis. Wir bauen genau solche Workflows für Teams in Vertrieb, Operations und Public Sector. Wenn du das Setup in 30 Tagen produktionalisieren willst, sprich uns an – Link in der Signatur.