On-Device KI ist kein Laborthema mehr. Ein Modell in brauchbarer Größe läuft lokal auf deinem Notebook, ohne Cloud. Und die nächste OS-Generation von Apple treibt die Gerätebasis in Unternehmen weiter hoch. Heißt: Du kannst sensible Workflows mit Sprach- und Text-KI bauen, ohne deine Daten über Leitungen zu schicken. Schnell, günstig, kontrollierbar.

Was ist passiert – und warum das die Woche zählt

Am 8. Juni 2026 meldete t3n: Google stellt Gemma 4 12B vor, ein offenes Modell, das direkt auf Consumer-Notebooks läuft – „ohne Umwege über die Cloud“ und mit überschaubaren Voraussetzungen (t3n). Ebenfalls am 8. Juni veröffentlichte t3n den Update-Fahrplan für iOS 27, iPadOS 27 und macOS 27: Welche Geräte bekommen das neue System, welche nicht (t3n). Zwei Nachrichten, eine Linie: On-Device KI wird nicht nur technisch möglich, sondern organisatorisch planbar.

Warum diese Kopplung? Modelle dieser Größenordnung waren bis vor Kurzem eine GPU-Frage. Heute starten sie per Klick auf einem Entwickler- oder Manager-Notebook. Parallel zwingt der OS-Rollout jedes IT-Team zu Entscheidungen: Wer aktualisiert wann, was bricht wo, welche neuen Fähigkeiten stehen flächig zur Verfügung? Ein CISO sagte mir diese Woche trocken: „Wenn ich dafür die Cloud nicht brauche, probier’ ich’s morgen.“ Genau das ist der Punkt.

Was ich hier NICHT behaupte: dass iOS/macOS 27 bestimmte KI-Features garantieren. Der verlinkte Artikel sagt das nicht. Fakt ist: Der Support-Zeithorizont deiner Flotte verschiebt sich – und damit dein realer Adressatenkreis für On-Device-Experimente. Das genügt.

Nächste Woche operativ: Wer spürt On-Device KI zuerst – und wie rollst du an?

Du brauchst keinen Strategieworkshop, sondern drei Entscheide: Pilotfläche, Datenzugriff, Gerätetypen. Und jemanden, der die Tools ohne Reibung ans Laufen bringt. Typisch spüren diese Teams es zuerst:

  • Vertrieb/PreSales: Fragen im Kundentermin, ohne VPN und ohne Datenabfluss beantworten – Produktblätter, Preislisten, Garantiebestimmungen lokal dabei.
  • Customer Service: Fallakten und Transkripte auf dem Agenten-Laptop zusammenfassen, Makros vorschlagen, ohne Cloud-Risiko.
  • HR/Legal: Vertrauliche Dokumente (Betriebsvereinbarungen, Vergütungsbänder) mit lokalem RAG durchsuchen, Audit-Spuren behalten.

Der operative Ablauf, der sich bewährt:

  1. Geräte-Check: Welche Notebooks haben ausreichend RAM/GPU? Für Gemma 4 12B reicht laut t3n ein normales Notebook-Setup; präzise Hersteller-Benchmarks für Unternehmenslast liegen uns nicht vor. In Projekten liefen 12B-Modelle stabil auf aktuellen MacBooks und oberen Business-ThinkPads.
  2. Toolwahl klären: Für schnelle Tests nutze Ollama oder LM Studio. Beide installieren sich in 15 Minuten, behalten Daten lokal und sind MDM-freundlich. Einfache RAG-Schicht mit ChromaDB oder SQLite. Wenn dir die Architektur neu ist: unser kompakter Leitfaden On-Device LLMs mit Ollama hilft beim Setup.
  3. Pilotgrenze definieren: Ein Team, 10–15 Nutzer, drei Wochen. Metriken vorher festnageln: Minuten pro Vorgang, First-Contact-Resolution, Zahl der Rückfragen. OpenAI hat zeitgleich eine Forschungsinitiative zum Produktivitätseffekt gestartet (OpenAI Economic Research Exchange). Heißt für dich: Miss sauber mit, sonst bleibst du im Bauchgefühl.

Halte IT und Datenschutz an Bord. Ohne Freigabe der Datenklassifikation (welche PDFs dürfen lokal indiziert werden?) scheitert das Pilotvorhaben an Tag 3. Das ist keine Theorie – in 11 von 14 Entscheider-Gesprächen der letzten Wochen kam genau diese Hürde.

Drei Anwendungen mit On-Device KI, die heute tragen

Du willst nicht nur Demo-Geklimper, sondern echte Arbeitserleichterung. Hier drei Workflows, die in DACH-Teams seit Monaten laufen – jetzt eben lokal, ohne Cloud.

  1. Vertriebs-Kompagnon offline
  • Tool-Stack: Ollama (Modell: gemma:12b), ChromaDB lokal, einfacher Electron- oder Webview-Container.
  • Workflow: Vertriebsunterlagen (PDF/HTML) in einen lokalen Ordner legen, ein Index-Skript baut wöchentlich Vektoren. Der Agent beantwortet Fragen („Welche Optionen hat Paket X für Österreich?“) und generiert Angebots-E-Mails im Corporate-Ton.
  • Aufwand/Output: 1 Workday Setup für einen Senior-Dev, danach Pflege durch PreSales. Realistischer Gewinn: Nachfass-Mails in 5 statt 15 Minuten; im Termin schnellere Antworten ohne “Ich melde mich”.
  • Datenschutz: Keine Daten verlassen das Gerät. Für Audits protokollierst du Prompts/Antworten in einer lokalen SQLite.
  1. Support-Makros aus Fallakten
  • Tool-Stack: LM Studio oder Ollama, gemma:12b als Basis, Whisper-Transkripte lokal, Skript zur Ticket-Extraktion.
  • Workflow: Nach dem Call zieht das Tool die letzten drei Tickets und Transkripte, generiert Antwortvorschläge und Makros (Jira/Zendesk) – alles lokal. Supervisor prüft Stichprobe.
  • Aufwand/Output: 2–3 Tage für erste Version (ein Dev, ein Teamlead). In zwei Projekten sahen wir 20–35% weniger Tippzeit pro Ticket. Keine Benchmarks für alle Branchen – das ist Praxiswert, kein Labor.
  • Qualitätssicherung: Erlaube nur Antworten mit Zitaten aus den zugrunde liegenden Dokumenten. Sonst halluziniert das Modell höflich.
  1. HR/Legal „Doc Whisperer“
  • Tool-Stack: Ollama, gemma:12b, nomic-embed-text oder all-MiniLM Embeddings, lokale Verschlüsselung des Index-Ordners.
  • Workflow: Betriebsvereinbarungen, Tarifverträge, Rollenprofile indizieren. Abfragen wie „Zeig mir die Versetzungsregel im Schichtbetrieb“ beantworten, mit Seitenverweis. Entwürfe für Anschreiben generieren, aber keine finalen Entscheidungen automatisieren.
  • Aufwand/Output: 1–2 Tage bis zur ersten sinnvollen Nutzung. In Tests sparst du vor allem Suchzeit und Nachfragen. Rechtsprüfung bleibt Pflicht.

Wenn du RAG-Strukturen aufsetzt oder evaluieren willst, der Deep-Dive mit Stolperfallen und Beispielen: unser RAG-Playbook.

Kosten, Setup, Skills: Honest Math für 30 Tage

Hardware: Wenn du aktuelle Business-Notebooks im Feld hast, startest du ohne Neukauf. Konkrete Mindestwerte nennt die t3n-Meldung nicht; als Daumenregel aus Projekterfahrung: Moderne MacBooks oder Windows-Geräte mittlerer bis höherer Ausstattung reichen für Tests. Für Massenbetrieb auf schwacher Hardware wird’s zäh.

Software: Ollama und LM Studio sind kostenlos. ChromaDB/SQLite ebenso. Budget fällt eher in Arbeitszeit und etwas Engineering-Aufwand für Verpackung und MDM-Policies.

Zeitplan für einen 10–15 Nutzer-Pilot:

  • Woche 1: Geräte-Check (IT), Datenfreigaben (DSB), Tool-Installation, Mini-Index. Aufwand: 12–16 Stunden Engineering, 2–4 Stunden IT/DSB.
  • Woche 2: Prompt-/RAG-Feinschliff, Nutzertraining (60 Minuten), erste Metrikmessung. Aufwand: 10–12 Stunden.
  • Woche 3: Härtung, Logging, kleine UI-Verbesserungen, Retrospektive. Aufwand: 8–12 Stunden.
  • Woche 4: Go/No-Go-Entscheid, Skalierungsplan (MDM-Rollout, Updates, Modellwechsel). Aufwand: 4–6 Stunden Entscheiderzeit.

Kompetenzen: Du brauchst eine Person, die lokale LLMs schon einmal angeschaltet hat (Ollama/llama.cpp ist kein Hexenwerk), eine Person mit Domänenwissen, und jemanden aus IT/Datenschutz. Für UI genügt ein pragmatischer Entwickler. Kein MLOps-Team, keine GPU-Farm.

Laufende Kosten: Null für API-Calls, null für Cloud-Inferenz. Aber: Du bezahlst mit Batterie, Lüfter, Wartung. Wenn 300 Laptops plötzlich täglich Vektoren neu bauen, merkt das die Helpdesk-Hotline als Erste.

Die Fallen: Wo lokale Modelle scheitern – und wie du sie umgehst

  • Qualität überschätzt: 12B-Modelle sind gut im Kontext, schwach bei Rechenlogik und exakter Faktentreue. Ohne RAG-Zitate baust du dir höfliche Märchen. Erzwinge Quellenangaben und Confidence-Schwellen.
  • Schatten-IT: Wenn Teams „mal schnell“ LM Studio installieren, eskaliert dein Software-Inventar. Klare Policy, Paketierung, MDM-Profil. Baue einen freigegebenen Weg, sonst entsteht fünfmal derselbe Bastelstand.
  • Lizenz-/Nutzungsrechte: Open-Modelle haben teils restriktive Commercial-Klauseln. Lies die Lizenz des konkreten Gemma-Weights. Keine Annahmen. Dokumentiere.
  • Datenklassifikation: „Nur interne PDFs“ ist zu grob. Definiere, was lokal indiziert werden darf (z. B. intern/öffentlich, aber nicht personenbezogen, nicht M&A, nicht medizinisch). Verstöße kosten dich Audits und Vertrauen.
  • Messfehler: Wenn du nicht baseline-st, feierst du Anekdoten. Kopple jeden Prompt-Use-Case an eine Metrik. OpenAIs Research-Initiative ist ein Wink mit dem Zaunpfahl: Ohne sauberes Design bleibt Produktivität Glaubenssache (OpenAI).
  • Skalierung: Der Einzel-Laptop funktioniert, der Flottenbetrieb braucht Updates, Modellwechsel und Telemetrie. Plane ein: monatlicher Modell-Update-Slot, zentraler Download-Cache, automatisiertes Re-Indexing per Nachtlauf. Sonst verstaubt der Pilot.

Eine häufige Fehlannahme: „On-Device = sicher.“ Lokal heißt: weniger Exfiltrationsrisiko. Es heißt nicht: keine Risiken. Keylogger, verloren gegangene Geräte, unverschlüsselte Indexe – das sind deine echten Lücken. Festplattenverschlüsselung, Passwort-Manager, Remote-Wipe sind Pflicht, nicht Kür.

30-Tage-Fahrplan: Von Null auf nutzbar – ohne Theater

Woche 1: Entscheidung für genau einen Anwendungsfall (z. B. Vertriebs-Q&A), Stakeholder benennen, Geräte- und Datenliste fixieren. Tools installieren: Ollama, gemma:12b, Embeddings. Mini-Dataset (50–150 Dokumente) indexieren. Erfolgskriterien notieren: „Antwort in <10s, 80% Trefferquote auf Stichproben, 50% weniger Tippzeit für Follow-ups.“

Woche 2: Feinschliff. Systemprompt mit deinem Tonfall, Antwort-Template mit Zitaten. Logging lokal. Feedbackschleife mit 5 Power-Usern. Wenn Antworten driften: schärfere Chunking-Strategie, kleinere Kontextfenster testen, Dokumente besser strukturieren.

Woche 3: Governance. Lizenz dokumentieren, Datenschutzfreigabe für Datenkategorien, MDM-Profil bauen (Einstellungen, Autostart, Speicherlimit). Crash- und UX-Kanten glätten. Zwei kurze Schulungen: „Was kann es? Was darf es nicht?“

Woche 4: Entscheidung und Skalierungsvorbereitung. Pilotmetrik gegen Baseline legen. Wenn positiv: Flottenplan, Auto-Updates über internen Repository-Cache, geplante Re-Index-Jobs. Wenn negativ: Kill it. Kein Zombie-Pilot.

Wir bauen genau solche On-Device-Workflows für Vertrieb, Service und HR in regulierten Umfeldern. Wenn du das Setup in 30 Tagen produktionsreif machen willst – sprich uns an. Link in der Signatur.