Infrastructure16 Min.4. Februar 2026

Datensouveranitat fur KI-Agenten in Europa: Private-VPC-Deployment vs. Cloud-API-Architekturen

Drei Deployment-Architekturen im Vergleich -- mit Kosten-, Leistungs- und Compliance-Trade-offs fur europaische Unternehmen

DLV

Dr. Lena Voss

CTO & Mitgründerin, Korvus Labs

TL;DR

Das Senden von Unternehmensdaten an US-gehostete LLM-APIs erzeugt ungelostes Schrems-II-Risiko und kann gegen die Ubermittlungsanforderungen nach Artikel 44--49 DSGVO verstossen -- unabhangig davon, was der Auftragsverarbeitungsvertrag des Anbieters besagt.
Drei tragfahige Architekturen existieren: Public-Cloud-API (gunstigste, geringste Compliance), Private VPC mit EU-gehosteten Modellen (ausgewogen) und vollstandig On-Premise souveranes Deployment (hochste Compliance, 2--3-fache Kosten).
Open-Source-LLMs wie Llama 3.1 405B und Mistral Large 2 erreichen mittlerweile 92--96 % der GPT-4-Klasse-Leistung bei Enterprise-Aufgaben und machen souveranes Deployment erstmals technisch realisierbar.
Ein vollstandig souveraner KI-Stack -- EU-gehostetes LLM, EU-Vector-Datenbank, EU-Orchestrierung -- kostet ca. 18.000--32.000 EUR/Monat, eliminiert aber das internationale Ubermittlungsrisiko vollstandig.

Das Datensouveranitatsproblem bei europaischen KI-Deployments

Jedes Mal, wenn ein europaisches Unternehmen Kundendaten, Mitarbeiterdaten oder Finanzdokumente an eine US-gehostete LLM-API sendet, initiiert es eine internationale Datenubermittlung nach DSGVO. Das ist keine theoretische Sorge. Seit der Europaische Gerichtshof den EU-US Privacy Shield in seinem Schrems-II-Urteil (Rechtssache C-311/18) fur ungultig erklart hat, ist die Rechtsgrundlage fur die Ubermittlung personenbezogener Daten an US-basierte Auftragsverarbeiter grundlegend erschuttert. Standardvertragsklauseln (SCCs) bleiben verfugbar, erfordern aber ein Transfer Impact Assessment (TIA), das nachweist, dass das Zielland ein im Wesentlichen gleichwertiges Schutzniveau bietet -- ein Standard, den die USA fur Daten, die der FISA Section 702-Uberwachung unterliegen, derzeit nicht erfullen.

Das EU-US Data Privacy Framework (DPF), angenommen im Juli 2023, sollte dies losen. Doch rechtliche Anfechtungen laufen bereits, und viele europaische Datenschutzbeauftragte behandeln es eher als temporare Brucke denn als dauerhaftes Fundament. Ihre gesamte KI-Infrastruktur auf der Annahme aufzubauen, dass das DPF einer gerichtlichen Uberprufung standhalt, ist ein strategisches Risiko, das die meisten Enterprise-Risikokomitees nicht akzeptieren sollten.

Uber Schrems II hinaus fuhrt die KI-Verordnung zusatzliche Data-Governance-Anforderungen ein, die das Problem verscharfen. Artikel 10 verlangt, dass Trainingsdaten fur Hochrisiko-KI-Systeme angemessenen Data-Governance-Massnahmen unterliegen, einschliesslich der Prufung auf Verzerrungen und Lucken. Wenn Sie eine API eines Drittanbieters nutzen, haben Sie keinerlei Einblick in die Trainingsdaten. Sie konnen sie nicht prufen. Sie konnen sie nicht dokumentieren. Sie konnen keine Compliance zertifizieren. Fur Unternehmen, die KI-Agenten in regulierten Sektoren einsetzen -- Finanzdienstleistungen, Gesundheitswesen, offentliche Verwaltung -- entsteht eine Compliance-Lucke, die keine vertragliche Formulierung uberbrucken kann.

Hinzu kommen vertragliche Kundenverpflichtungen. Viele europaische Unternehmen operieren unter Auftragsverarbeitungsvertragen (AVVs) mit ihren eigenen Kunden, die internationale Ubermittlungen ausdruecklich untersagen oder Benachrichtigung und Einwilligung fur neue Unterauftragsverarbeiter erfordern. OpenAI oder Anthropic als Unterauftragsverarbeiter in Ihre Datenverarbeitungskette aufzunehmen, erfordert die Aktualisierung jedes AVV, die Benachrichtigung jedes Kunden und die Bearbeitung etwaiger Einwande. In der Praxis berichten Enterprise-Vertriebsteams, dass 30--40 % der grossen europaischen Kunden gegen US-basierte KI-Unterauftragsverarbeiter Einwande erheben, was Reibung im Vertriebsprozess erzeugt, die direkt den Umsatz beeinflusst.

Die praktische Konsequenz ist klar: Europaische Unternehmen, die KI-Agenten im grossen Massstab einsetzen wollen, benotigen eine Architekturstrategie, die Datensouveranitat als erstrangige Anforderung adressiert -- nicht als Nachgedanken, der mit Vertragsklauseln nachgerüstet wird.

Diagramm des Datenflusses von europaischem Unternehmen uber US-gehostete LLM-API, mit Hervorhebung der internationalen Ubermittlungs-Risikopunkte

Drei Architekturen im Vergleich: Public API, Private VPC, On-Premise

Europaische Unternehmen haben drei grundlegende Architekturoptionen fur den Einsatz von KI-Agenten. Jede beinhaltet unterschiedliche Trade-offs bei Kosten, Leistungsfahigkeit, Compliance und operativer Komplexitat. Es gibt keine universell richtige Antwort -- die beste Wahl hangt von Ihrem regulatorischen Umfeld, der Datensensitivitat und den Budgetbeschrankungen ab.

Architektur 1: Public Cloud API ist der einfachste Ansatz. Ihre Anwendung ruft API-Endpunkte von OpenAI, Anthropic oder Google auf. Daten verlassen Ihre Infrastruktur, werden auf den Servern des Anbieters verarbeitet (typischerweise US-basiert, obwohl einige EU-Endpunkte anbieten) und die Ergebnisse werden zuruckgegeben. Monatliche Kosten fur ein mittelgrosses Deployment (50.000 Agenten-Interaktionen/Monat) liegen bei ca. 3.000--6.000 EUR an API-Gebuhren. Die Setup-Zeit betragt Tage, nicht Wochen. Sie erhalten sofortigen Zugriff auf die leistungsfahigsten Modelle. Die Compliance-Position ist jedoch die schwachste: Daten uberqueren internationale Grenzen, Sie verlassen sich vollstandig auf den AVV und die SCCs des Anbieters und haben keine Kontrolle uber Unterauftragsverarbeiter, Datenaufbewahrung oder Modelltraining.

Architektur 2: Private-VPC-Deployment platziert Modelle innerhalb Ihres Cloud-Mandanten oder eines dedizierten EU-Region-Deployments. Anbieter wie Azure OpenAI Service (mit EU Data Boundary), AWS Bedrock (Region Frankfurt) und verschiedene Open-Source-Modell-Hosting-Optionen erlauben die Inferenz innerhalb europaischer Rechenzentren bei gleichzeitiger Nutzung der operativen Vorteile der Cloud. Monatliche Kosten fur aquivalente Leistungsfahigkeit steigen auf 8.000--18.000 EUR, bedingt durch dedizierte GPU-Allokation und Infrastrukturmanagement. Die Setup-Zeit betragt 2--4 Wochen. Die Modellleistung ist stark -- Azure OpenAI in EU-Regionen bietet GPT-4-Klasse-Modelle, und Open-Source-Alternativen wie Llama 3.1 405B verkleinern den Abstand weiter. Die Compliance ist substanziell besser: Daten bleiben innerhalb der EU-Grenzen, Sie kontrollieren die Verarbeitungsumgebung, und AVVs sind einfacher, da keine internationale Ubermittlung stattfindet.

Architektur 3: Vollstandig On-Premise / Souverane Cloud bedeutet, den gesamten KI-Stack auf Infrastruktur zu betreiben, die Sie besitzen oder kontrollieren, innerhalb eines europaischen souveranen Cloud-Anbieters (OVHcloud, IONOS, Hetzner oder ahnlich). Sie hosten Open-Source-Modelle, verwalten Ihre eigenen GPU-Cluster und behalten die vollstandige Kontrolle uber jedes Byte an Daten. Monatliche Kosten fur ein Enterprise-Deployment mit Redundanz liegen bei 18.000--32.000 EUR einschliesslich Hardware-Amortisation, Betrieb und Engineering-Aufwand. Die Setup-Zeit betragt 4--8 Wochen. Die Modellleistung hangt ausschliesslich davon ab, welche Open-Source-Modelle Sie deployen -- derzeit 92--96 % der proprietaren Frontier-Modelle bei den meisten Enterprise-Aufgaben. Die Compliance ist am starksten: keine internationalen Ubermittlungen, keine Drittanbieter-Unterauftragsverarbeiter fur die Inferenz, vollstandige Audit-Trail-Hoheit.

Die Entscheidungsmatrix lauft oft auf Folgendes hinaus: Wenn Ihre Daten gering sensibel und Ihre Branche leicht reguliert ist, ist Architektur 1 pragmatisch. Wenn Sie personenbezogene Daten verarbeiten oder in regulierten Sektoren operieren, bietet Architektur 2 die beste Balance. Wenn Sie strenger Sektorregulierung unterliegen (Banken, Gesundheitswesen, Verteidigung, offentlicher Sektor) oder Kundenvertrage die KI-Verarbeitung durch Dritte ausdruecklich untersagen, ist Architektur 3 die einzig vertretbare Wahl.

Bei Korvus Labs helfen wir Unternehmen, diese Architekturen gegen ihre spezifischen regulatorischen und geschaftlichen Anforderungen zu evaluieren, und wir deployen je nach Anwendungsfall in allen drei Modellen.

Open-Source-LLMs in der eigenen Infrastruktur

Die Machbarkeit eines souveranen KI-Deployments hangt an einer Frage: Sind Open-Source-LLMs gut genug fur Enterprise-Arbeit? Stand Anfang 2026 lautet die Antwort ein eingeschranktes, aber zunehmend zuversichtliches Ja.

Llama 3.1 405B von Meta bleibt der Goldstandard fur selbstgehostete Enterprise-KI. Auf Standard-Benchmarks (MMLU, HumanEval, GSM8K) liegt es innerhalb von 3--5 % von GPT-4 Turbo. Noch wichtiger: Bei Enterprise-spezifischen Aufgaben -- Dokumentextraktion, E-Mail-Klassifizierung, strukturierte Datengenerierung, Workflow-Reasoning -- verkleinert sich der Abstand weiter, weil diese Aufgaben weniger von den Frontier-Fahigkeiten abhangen, bei denen proprietare Modelle noch fuhren (kreatives Schreiben, nuanciertes kulturelles Verstandnis, extrem langes Kontextfenster-Reasoning). Der Betrieb von Llama 3.1 405B erfordert ca. 8x A100 80GB GPUs fur FP16-Inferenz oder 4x A100s mit INT8-Quantisierung bei minimalem Qualitatsverlust.

Mistral Large 2 (123B Parameter) bietet einen uberzeugenden Mittelweg -- kleiner als Llama 405B, benotigt nur 4x A100 GPUs fur Vollprazisions-Inferenz, bei Leistung, die Llama 3.1 70B auf den meisten Enterprise-Benchmarks erreicht oder ubertrifft. Mistral passt als franzosisches Unternehmen auch gut zum europaischen Datensouveraniats-Narrativ, und deren kommerzielle Lizenzierung ist Enterprise-freundlich.

Mixtral 8x22B nutzt eine Mixture-of-Experts-Architektur, die nur 39B Parameter pro Token aktiviert und dabei das Wissen eines viel grosseren Modells erhalt. Das macht es bemerkenswert effizient: Sie konnen es auf 2x A100 GPUs mit wettbewerbsfahiger Leistung betreiben. Fur durchsatzstarke, kostensensitive Deployments (Kundensupport-Triage, Dokumentenklassifizierung) bietet Mixtral das beste Leistung-pro-Euro-Verhaltnis aller selbstgehosteten Optionen.

Die praktische Frage ist nicht, ob diese Modelle GPT-4o auf jedem Benchmark entsprechen, sondern ob sie die Mindestleistungsschwelle fur Ihre spezifischen Anwendungsfalle erfullen. In unseren Deployments bei Korvus Labs stellen wir fest, dass Open-Source-Modelle Enterprise-Anforderungen in ca. 85 % der Anwendungsfalle ohne Finetuning erfullen, und diese Zahl steigt auf 95 % mit aufgabenspezifischem Finetuning auf 500--2.000 Beispielen aus Unternehmensdaten. Die verbleibenden 5 % -- typischerweise komplexes mehrstufiges Reasoning uber sehr lange Dokumente oder hochgradig nuancierte Beurteilungen -- konnen weiterhin von proprietarem Modellzugriff profitieren.

Finetuning ist der Bereich, in dem souveranes Deployment einen unerwarteten Vorteil gewinnt. Wenn Sie die Infrastruktur kontrollieren, konnen Sie Modelle auf Ihren proprietaren Daten feintunen, ohne diese Daten jemals an einen Dritten zu senden. Ein auf Ihre spezifischen Rechnungsformate, Vertragsvorlagen oder Kundenkommunikationsmuster feingetuntes Mistral Large 2 wird ein generisches GPT-4o bei genau diesen Aufgaben ubertreffen. Wir beobachten konsistent 12--18 % Genauigkeitsverbesserung durch domainspezifisches Finetuning, wodurch Open-Source-Modelle bei den Aufgaben, die fur das Geschaft tatsachlich relevant sind, oft uber die Leistung proprietarer Modelle hinausgehen.

Auch der Inferenz-Stack ist gereift. vLLM bietet produktionsreifes Serving mit PagedAttention fur effizientes Speichermanagement. TGI (Text Generation Inference) von Hugging Face bietet einen einfacheren Deployment-Pfad. Ollama eignet sich gut fur Entwicklung und Testing. Fur produktive Enterprise-Deployments empfehlen wir vLLM hinter einem API-Gateway mit Request-Queuing, Rate Limiting und automatischer Skalierung -- ein Setup, das 2--3 Tage fur die korrekte Konfiguration benotigt.

Leistungsvergleichsdiagramm von Open-Source-LLMs vs. proprietaren Modellen bei Enterprise-Aufgaben, mit Llama 3.1 405B bei 94 % der GPT-4-Turbo-Leistung

Europaische Cloud-Regionen: AWS, Azure und GCP

Die Wahl der richtigen Cloud-Region fur KI-Workloads in Europa erfordert das Verstandnis dessen, was jeder Hyperscaler tatsachlich bei Datenresidenz garantiert -- und wo die Lucken sind.

AWS eu-central-1 (Frankfurt) und eu-west-1 (Irland) sind die reifsten europaischen Regionen fur KI-Workloads. AWS Bedrock in Frankfurt bietet verwalteten Zugriff auf Anthropic Claude, Meta Llama und Mistral-Modelle mit vollstandig innerhalb der EU verarbeiteten Daten. SageMaker in diesen Regionen unterstutzt Custom-Model-Hosting mit P4d- (A100) und P5-Instanzen (H100). AWS' EU-Datenresidenz-Versprechen, formalisiert uber ihren EU Sovereign Pledge, verspricht, dass in EU-Regionen gespeicherte Kundendaten nicht zur Verarbeitung ausserhalb der EU ubermittelt werden. Allerdings schliesst das Versprechen ausdruecklich operative Metadaten und Support-Interaktionen aus, was CISOs beachten sollten.

Azure West Europe (Niederlande) und Germany West Central (Frankfurt) bieten das umfassendste souverane KI-Angebot uber das EU Data Boundary-Programm. Azure OpenAI Service innerhalb der EU Data Boundary verarbeitet alle Inferenz-Anfragen innerhalb der EU-Regionen und speichert keine Kundendaten ausserhalb der EU. Dies ist derzeit der direkteste Weg, GPT-4-Klasse-Modelle mit EU-Datenresidenz zu nutzen. Azure bietet auch Azure Confidential Computing mit Intel SGX und AMD SEV-SNP Enclaves, die Hardware-Isolation bieten, auf die selbst Microsoft keinen Zugriff hat -- eine sinnvolle zusatzliche Kontrolle fur hochsensible Workloads. Die Preise fur Azure OpenAI innerhalb der EU-Grenze haben einen moderaten Aufschlag von 10--15 % gegenuber US-Region-Preisen.

GCP europe-west3 (Frankfurt) und europe-west4 (Niederlande) unterstutzen Vertex AI mit Gemini-Modellen und Custom-Model-Hosting auf A100- und H100-GPUs. Googles Assured Workloads fur EU-Programm bietet Datenresidenzkontrollen mit Fokus auf Verschlusselungsschlussel-Management. GCPs T2A-Instanzen (Arm-basiert) bieten auch eine kosteneffiziente Option fur Inferenz-Serving, die 15--20 % gunstiger als aquivalente x86-GPU-Instanzen fur kompatible Workloads laufen.

Jenseits der Hyperscaler verdienen europaische souverane Cloud-Anbieter Beachtung. OVHcloud (franzosisch) bietet dedizierte GPU-Server mit Bare-Metal-A100-Zugriff ab ca. 2.800 EUR/Monat pro Server. Hetzner (deutsch) bietet kosteneffiziente GPU-Instanzen und hat einen starken Ruf fur Datenschutz aufgebaut. IONOS (deutsch, im Besitz von United Internet) bietet S3-kompatiblen Objektspeicher und Compute mit expliziten deutschen Datenresidenzgarantien. Diesen Anbietern fehlen die verwalteten KI-Dienste der Hyperscaler, aber ihre Transparenz, klare Preisgestaltung und europaische Eigentumsstruktur sprechen Organisationen mit strengen Souveraniatsanforderungen an.

Ein kritischer, oft ubersehener Aspekt ist die Komplexitat der Standardvertragsklauseln (SCCs). Selbst wenn Daten innerhalb von EU-Regionen bei einem Hyperscaler bleiben, ist der Cloud-Anbieter selbst typischerweise ein in den USA ansassiges Unternehmen, was bedeutet, dass sein Status als Auftragsverarbeiter SCC-Anforderungen auslosen kann. Die EU-Data-Boundary-Programme von AWS und Azure sind speziell darauf ausgelegt, dieses Risiko zu minimieren, aber Rechtsabteilungen sollten die spezifischen Zusicherungen prufen, anstatt anzunehmen, dass die Regionswahl allein die Ubermittlungsfrage lost.

Fur Unternehmen, die absolute Sicherheit benotigen, funktioniert eine hybride Architektur oft am besten: EU-Region-Hyperscaler-Services fur allgemeine Workloads nutzen, wo das EU-Data-Boundary-Programm des Anbieters ausreichende Gewahr bietet, und die sensibelsten KI-Workloads auf europaischen souveranen Cloud-Anbietern oder On-Premise-Infrastruktur deployen. Dieser gestaffelte Ansatz optimiert das Kosten-Compliance-Verhaltnis, ohne jeden Workload in die teuerste Architektur zu zwingen.

Artikel 28 DSGVO und Auftragsverarbeitungsvertrage fur KI

Wenn Ihr KI-Agent personenbezogene Daten uber ein Drittanbieter-LLM verarbeitet, ist dieser LLM-Anbieter ein Auftragsverarbeiter (oder Unterauftragsverarbeiter) nach DSGVO. Artikel 28 stellt spezifische Anforderungen an den Auftragsverarbeitungsvertrag (AVV) -- und die meisten Standard-AVVs der LLM-Anbieter haben erhebliche Lucken, wenn sie gegen Enterprise-Anforderungen bewertet werden.

Was Ihr AVV fur LLM-basierte Verarbeitung abdecken muss:

Erstens, Zweckbindung. Der AVV muss festlegen, dass der LLM-Anbieter Daten ausschliesslich zum Zweck der Generierung von Inferenzantworten auf Ihre API-Aufrufe verarbeitet. Das klingt offensichtlich, aber der Teufel liegt im Detail. Nutzt der Anbieter Ihre Prompts und Antworten zur Modellverbesserung? Viele Standard-Nutzungsbedingungen erlauben das. OpenAIs Enterprise-API-Bedingungen schliessen Training auf Kundendaten aus, aber Anthropic, Google und andere haben unterschiedliche Positionen. Ihr AVV muss ausdruecklich festlegen: kein Training, keine Modellverbesserung, keine Aggregat-Analyse auf Ihren Daten.

Zweitens, Transparenz bei Unterauftragsverarbeitern. Artikel 28 Abs. 2 verlangt, dass Auftragsverarbeiter Unterauftragsverarbeiter nur mit Genehmigung des Verantwortlichen einsetzen. Wenn Sie Azure OpenAI nutzen, ist Microsoft Ihr Auftragsverarbeiter, aber nutzen sie Unterauftragsverarbeiter fur Load Balancing, Monitoring oder Content Filtering? Die Unterauftragsverarbeiter-Kette fur KI-Inferenz kann undurchsichtig sein. Ihr AVV sollte eine vollstandige und aktuelle Unterauftragsverarbeiterliste verlangen, Vorabbenachrichtigung bei Anderungen (typischerweise 30 Tage) und das Widerspruchsrecht.

Drittens, Datenaufbewahrung und -loschung. Wie lange bewahrt der LLM-Anbieter Ihre Prompt-Daten auf? Werden sie gecached? In Logs gespeichert? Fur Missbrauchserkennung vorgehalten? Artikel 28 Abs. 3 lit. g verpflichtet den Auftragsverarbeiter, nach Beendigung des Verhaltnisses alle personenbezogenen Daten zu loschen oder zuruckzugeben. Fur KI-Anbieter umfassen "Daten" Prompt-Inhalte, Antwortinhalte und alle aus Ihren Daten erzeugten Embeddings. Ihr AVV muss Aufbewahrungsfristen festlegen (wir empfehlen 0 Tage fur Prompt-Inhalte, maximal 30 Tage fur operative Logs) und Loschverfahren.

Viertens, internationale Ubermittlungen. Wenn der LLM-Anbieter US-basiert ist, muss der AVV SCCs und ein Transfer Impact Assessment beinhalten. Bei Nutzung des EU-US Data Privacy Framework sollte der AVV den DPF-Zertifizierungsstatus des Anbieters festlegen und Fallback-Ubermittlungsmechanismen fur den Fall beinhalten, dass das DPF fur ungultig erklart wird (was eine realistische Moglichkeit bleibt).

Funftens, Auditrechte. Artikel 28 Abs. 3 lit. h gibt Ihnen das Recht, die Compliance des Auftragsverarbeiters zu prufen. Die meisten LLM-Anbieter bieten SOC-2-Type-II-Berichte und ISO-27001-Zertifizierungen als Alternative zu Vor-Ort-Audits an, was im Allgemeinen akzeptabel ist. Allerdings sollte Ihr AVV das Recht auf Durchfuhrung oder Beauftragung von Audits bei Verdacht auf Verletzung oder regulatorischer Untersuchung vorbehalten.

Sechstens, Vorfallbenachrichtigung. Die DSGVO verlangt Benachrichtigung uber Datenschutzverletzungen innerhalb von 72 Stunden. Ihr AVV mit dem LLM-Anbieter sollte eine Benachrichtigung innerhalb von 24--48 Stunden verlangen, um Ihrem Team ausreichend Zeit fur Bewertung, Untersuchung und Benachrichtigung der Aufsichtsbehorde innerhalb des 72-Stunden-Fensters zu geben.

In der Praxis empfehlen wir europaischen Unternehmen, eine AVV-Bewertungsmatrix zu fuhren, die jeden KI-Anbieter gegen diese sechs Kriterien evaluiert. Bei Korvus Labs stellen wir diese Bewertung als Teil unserer Architekturplanung bereit und stellen sicher, dass rechtliche und technische Anforderungen aufeinander abgestimmt sind, bevor die erste Zeile Code geschrieben wird.

Data-Governance-Anforderungen der KI-Verordnung

Die KI-Verordnung, die am 1. August 2024 in Kraft trat und stufenweise bis 2027 durchgesetzt wird, fuhrt Data-Governance-Anforderungen ein, die deutlich uber die DSGVO hinausgehen. Fur Unternehmen, die KI-Agenten einsetzen, schaffen Artikel 10 (Daten und Daten-Governance) und Artikel 15 (Genauigkeit, Robustheit und Cybersicherheit) Pflichten, die Architekturentscheidungen fundamental beeinflussen.

Artikel 10 verlangt, dass Trainings-, Validierungs- und Testdatensatze fur Hochrisiko-KI-Systeme Data-Governance- und -Management-Praktiken unterliegen, einschliesslich: Prufung auf mogliche Verzerrungen, Identifizierung von Datenluecken oder -mangeln, Bewertung von Relevanz, Reprasentativitat und Genauigkeit sowie Berucksichtigung des spezifischen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Umfelds, in dem das System eingesetzt werden soll.

Fur Unternehmen, die Drittanbieter-LLM-APIs nutzen, schafft dies ein unmittelbares Problem. Sie konnen die Trainingsdaten-Governance eines Modells, das Sie nicht trainiert haben, nicht dokumentieren. Wenn eine Aufsichtsbehorde Nachweise uber Bias-Tests des Grundmodells Ihres KI-Agenten verlangt, reicht ein Verweis auf die Modellkarte des LLM-Anbieters nicht aus. Sie benotigen dokumentierte Nachweise Ihres eigenen Test- und Evaluierungsprozesses. Das bedeutet: Testdatensatze pflegen, die Ihren spezifischen Anwendungsfall widerspiegeln, Bias-Evaluierungen uber relevante demografische Kategorien durchfuhren und die Ergebnisse mit Zeitstempeln und Methodik dokumentieren.

Artikel 10 Abs. 5 ist besonders relevant: Er erlaubt die Verarbeitung besonderer Kategorien personenbezogener Daten (Artikel 9 DSGVO -- Rasse, Gesundheit, politische Meinungen) ausdruecklich fur Bias-Monitoring-Zwecke, sofern angemessene Schutzmassnahmen bestehen. Dies ist eine bedeutsame Ausnahme, die Unternehmen eine grundliche Fairness-Prufung ermoglicht, ohne gegen das allgemeine Verbot der Verarbeitung sensibler Daten nach DSGVO zu verstossen.

Trainingsdaten-Dokumentation nach Artikel 10 Abs. 2 erfordert eine Beschreibung von: den Datenerhebungsprozessen, dem Ursprung der Daten, dem Zweck der Datenerhebung, Datenaufbereitungsmassnahmen (Bereinigung, Labeling), der Formulierung relevanter Annahmen, einer Bewertung der Datenverfugbarkeit und -eignung und der Identifizierung etwaiger Datenlucken. Fur Unternehmen, die Open-Source-Modelle auf proprietaren Daten feintunen, ist dies mit disziplinierten Dokumentationspraktiken erreichbar. Fur Unternehmen, die Drittanbieter-APIs mit unbekannten Trainingsdaten nutzen, erfordert Compliance die Behandlung des externen Modells als Black Box und die Fokussierung der Dokumentationsbemuhungen auf die eigenen Evaluierungs- und Testdaten.

Artikel 15 fugt Anforderungen an Genauigkeit, Robustheit und Cybersicherheit hinzu, die Datensouveranitatsentscheidungen direkt betreffen. Genauigkeitsmetriken mussen deklariert und aufrechterhalten werden. Robustheit gegen Fehler, Storungen und Inkonsistenzen muss demonstriert werden. Und Cybersicherheitsmassnahmen mussen das KI-System gegen unbefugten Zugriff oder Manipulation schutzen -- einschliesslich adversarialer Angriffe auf das Modell selbst. Eigene Infrastruktur gibt Ihnen direkte Kontrolle uber diese Cybersicherheitsmassnahmen; eine Abhangigkeit von einer Drittanbieter-API bedeutet Abhangigkeit von deren Sicherheitslage.

Die praktische Implikation ist klar: Die Data-Governance-Anforderungen der KI-Verordnung begunstigen stark Architekturen, in denen das Unternehmen die Kontrolle uber die Komponenten des KI-Systems behalt. Das bedeutet nicht zwingend On-Premise-Deployment, aber es bedeutet die Wahl von Architekturmustern, die Sichtbarkeit, Prufbarkeit und Kontrolle uber die gesamte KI-Pipeline bieten.

Architektur-Blueprint: Der vollstandig souverane KI-Stack

Ein vollstandig souveranes KI-Deployment halt jede Komponente der Agenten-Pipeline innerhalb der EU-Jurisdiktion, unter Ihrer direkten Kontrolle. Hier ist die vollstandige Architektur von der Benutzeranfrage bis zur Agentenantwort.

Schicht 1: Ingress und API-Gateway. Benutzeranfragen gelangen uber einen Load Balancer, der in einer EU-Cloud-Region oder im eigenen Rechenzentrum deployed ist. Wir empfehlen Traefik oder NGINX als API-Gateway mit TLS-Terminierung, Rate Limiting, Request-Authentifizierung und Routing. Der gesamte Datenverkehr bleibt innerhalb der EU-Infrastruktur. Kein CDN oder Edge-Node ausserhalb der EU beruhrt die Daten.

Schicht 2: Agenten-Orchestrierung. Die Orchestrierungsschicht verwaltet die Reasoning-Schleife des Agenten -- empfangt die Benutzeranfrage, bestimmt, welche Tools und Wissensquellen abgefragt werden, verwaltet mehrstufige Workflows und assembliert die finale Antwort. Wir deployen dies mit LangGraph oder kundenspezifischer Orchestrierung auf Kubernetes (EKS in Frankfurt oder selbstverwaltetes K8s auf souveraner Cloud). Die Orchestrierungsschicht verwaltet den Konversationsstatus, Tool-Aufrufe und erzwingt Geschaftsregeln einschliesslich Human-in-the-Loop-Genehmigungsworkflows fur sensitive Aktionen.

Schicht 3: EU-gehostete LLM-Inferenz. Das zentrale Sprachmodell lauft auf EU-basierter GPU-Infrastruktur. Fur maximale Souveranitat bedeutet das selbstgehostete Open-Source-Modelle (Llama 3.1 405B, Mistral Large 2), bereitgestellt uber vLLM auf A100- oder H100-GPUs. Fur ausgewogene Deployments bieten Azure OpenAI innerhalb der EU Data Boundary oder AWS Bedrock in Frankfurt verwaltete Inferenz mit EU-Datenresidenz. Die Inferenzschicht verarbeitet die Prompts des Agenten und gibt strukturierte Antworten zuruck. Keine Prompt-Daten, Kontextdaten oder Antwortdaten verlassen die EU.

Schicht 4: Vector-Datenbank fur RAG. Retrieval-Augmented Generation erfordert eine Vector-Datenbank, die Embeddings Ihrer Unternehmens-Wissensbasis speichert. Wir deployen Qdrant (Berliner Unternehmen) oder Weaviate (Amsterdamer Unternehmen) auf EU-Infrastruktur. Beide sind Open Source, selbst-hostbar und von europaischen Unternehmen entwickelt. Die Vector-Datenbank speichert Dokument-Embeddings, Metadaten und fuhrt Ahnlichkeitssuchen durch. Fur Unternehmen mit extremen Souveraniatsanforderungen bietet Qdrant auf selbstverwalteter Infrastruktur vollstandige Datenisolation.

Schicht 5: Enterprise-Data-Connectoren. Der Agent benotigt Zugriff auf Enterprise-Systeme -- CRM, ERP, Ticketing, Dokumentenmanagement. Diese Connectoren laufen innerhalb der Orchestrierungsschicht und kommunizieren mit Enterprise-Systemen uber private Netzwerkverbindungen (VPN, VPC-Peering oder Direct Connect). Keine Unternehmensdaten werden uber das offentliche Internet ubertragen oder verlassen die EU. Die Connector-Authentifizierung nutzt Service-Accounts mit Least-Privilege-Zugriff, rotiert in 90-Tage-Zyklen.

Schicht 6: Monitoring und Observability. Vollstandige Audit-Trails erfordern umfassendes Logging. Wir deployen OpenTelemetry fur Distributed Tracing, Prometheus fur Metriken und einen selbst gehosteten ELK-Stack (Elasticsearch, Logstash, Kibana) oder Grafana Loki fur Log-Aggregation. Jede Agenteninteraktion wird protokolliert: der Eingabe-Prompt, der Reasoning-Trace (Tool-Aufrufe, Retrieval-Ergebnisse, Zwischenschritte), die finale Ausgabe, Konfidenzwerte und Latenzmetriken. Logs werden auf EU-Infrastruktur mit konfigurierbaren Aufbewahrungsfristen gespeichert (typischerweise 2 Jahre fur Compliance).

Schicht 7: Sicherheit und Zugriffskontrolle. Identitatsmanagement uber Keycloak (selbst gehostet, EU-basiert) oder Enterprise-SSO-Integration. Row-Level-Access-Control stellt sicher, dass Agenten nur auf Daten zugreifen, fur die der anfragende Benutzer autorisiert ist. Prompt-Injection-Erkennung lauft als Vorverarbeitungsschritt, bevor das LLM Eingaben erhalt. Output-Filtering fangt sensible Daten (personenbezogene Daten, Credentials) ab, bevor Antworten Benutzer erreichen.

Diese siebenschichtige Architektur ist produktionsreif. Wir haben Varianten davon fur Unternehmen in Finanzdienstleistungen, Gesundheitswesen und offentlicher Verwaltung deployed. Der vollstandige Stack lauft auf 4--8 GPU-Servern plus 6--10 CPU-Servern fur Orchestrierung, Monitoring und Datenbanken. Die Gesamtinfrastrukturkosten liegen zwischen 18.000 und 32.000 EUR/Monat abhangig von GPU-Tier und Redundanzanforderungen.

Leistung, Kosten und Funktions-Trade-offs

Lassen Sie uns ehrlich uber die Trade-offs sprechen. Souveranes KI-Deployment ist nicht kostenlos, und so zu tun, als hatte es keine Nachteile, nutzt niemandem.

Kosten. Ein vollstandig souveranes Deployment kostet 2--3-mal mehr als eine Public-API-Architektur bei aquivalentem Durchsatz. Public API bei 50.000 Interaktionen/Monat: ca. 4.500 EUR/Monat. Private VPC mit verwalteten EU-Services: ca. 13.000 EUR/Monat. Vollstandig souveran mit selbst gehosteten Modellen: ca. 25.000 EUR/Monat. Diese Zahlen beinhalten Infrastruktur, GPU-Compute, Storage, Monitoring und operativen Overhead (aber nicht Engineering-Gehalter fur den initialen Aufbau). Der Kostenaufschlag ist real, muss aber gegen die Kosten der Nicht-Compliance abgewogen werden: DSGVO-Bussgelder bis zu 4 % des weltweiten Jahresumsatzes, Bussgelder nach der KI-Verordnung bis zu 35 Mio. EUR oder 7 % des Umsatzes, Kundenvertragsbruche und Reputationsschaden.

Latenz. Public APIs von OpenAI und Anthropic liefern First-Token-Latenz von 200--400 ms und vollstandige Antworten in 1--3 Sekunden fur typische Enterprise-Prompts. Selbst gehostetes Llama 3.1 405B auf 8x A100s liefert First-Token-Latenz von 300--600 ms und vollstandige Antworten in 2--5 Sekunden. Der Unterschied ist spurbar, aber selten geschaftskritisch. Fur Anwendungen, bei denen Latenz wichtig ist (Echtzeit-Kundensupport), konnen selbst gehostetes Mixtral 8x22B oder Mistral Large 2 auf weniger GPUs die API-Latenz erreichen oder ubertreffen, da Netzwerk-Roundtrips zu US-Rechenzentren entfallen. In der Praxis gleichen die Netzwerkeinsparungen den Inferenzgeschwindigkeitsunterschied teilweise aus.

Leistungsfahigkeit. Hier haben proprietare Modelle noch einen Vorsprung. Bei komplexen Reasoning-Aufgaben, die 5+ logische Schritte verketten, ubertreffen GPT-4o und Claude 3.5 Sonnet Open-Source-Alternativen um 8--15 % auf standardisierten Benchmarks. Bei kreativem Schreiben, nuanciertem kulturellem Verstandnis und extrem langen Kontextaufgaben (128K+ Tokens) ist der Abstand ahnlich. Bei den Aufgaben jedoch, die 90 % der Enterprise-KI-Agenten-Workloads ausmachen -- Dokumentextraktion, Klassifizierung, strukturierte Datengenerierung, FAQ-Beantwortung, Workflow-Ausfuhrung -- liegen Open-Source-Modelle innerhalb von 3--5 % der proprietaren Alternativen. Finetuning verkleinert diesen Abstand weiter.

Operative Komplexitat. Den Betrieb eigener GPU-Infrastruktur erfordert Fahigkeiten, die viele Unternehmen intern nicht haben: GPU-Cluster-Management, Model-Serving-Optimierung, Inferenz-Pipeline-Tuning und ML-Operations. Sie benotigen mindestens 1--2 dedizierte ML-Engineers fur ein produktives souveranes Deployment, verglichen mit null fur eine Public-API-Integration. Dieser Personalkostenfaktor -- ca. 150.000--250.000 EUR/Jahr an Gehalt -- wird bei Architekturentscheidungen oft unterschatzt. Die Zusammenarbeit mit einem auf souveranes KI-Deployment spezialisierten Beratungsunternehmen wie Korvus Labs kann diese Lucke wahrend der initialen Aufbauphase uberbrucken und Wissen uber 3--6 Monate an interne Teams transferieren.

Wann welche Architektur wahlen. Nutzen Sie Public API, wenn: Daten nicht personenbezogen sind, die Regulierung gering ist, Speed-to-Market kritisch ist und das Budget begrenzt ist. Nutzen Sie Private VPC, wenn: Daten personenbezogene Informationen enthalten, Sie in moderat regulierten Sektoren operieren und Sie eine Balance aus Kosten und Compliance benotigen. Nutzen Sie vollstandig souveran, wenn: Sie sensible personenbezogene oder Finanzdaten verarbeiten, in stark regulierten Sektoren operieren, Kundenvertrage die KI-Verarbeitung durch Dritte untersagen oder Sie gegenuber Aufsichtsbehorden vollstandige Datenkontrolle nachweisen mussen.

Die richtige Antwort ist selten Alles-oder-Nichts. Die meisten Unternehmen, mit denen wir arbeiten, deployen eine hybride Architektur: souverane Infrastruktur fur ihre sensibelsten Anwendungsfalle (Kundendatenverarbeitung, Finanzanalyse, HR-Workflows) und verwaltete EU-Region-Services fur weniger sensitive Aufgaben (interne Wissenssuche, Code-Assistenz, Content-Zusammenfassung). Dieser hybride Ansatz liefert typischerweise 80 % des Compliance-Nutzens zu 50 % der Kosten vollstandiger Souveranitat.

Haufig gestellte Fragen

Europaische Unternehmen haben drei Optionen: LLM-APIs innerhalb von EU-Data-Boundary-Programmen nutzen (Azure OpenAI EU, AWS Bedrock Frankfurt), Open-Source-Modelle auf EU-Cloud-Infrastruktur deployen oder vollstandig On-Premise souverane Stacks aufbauen. Die richtige Wahl hangt von Datensensitivitat und regulatorischen Anforderungen ab. Die meisten Unternehmen profitieren von einem hybriden Ansatz, der souverane Infrastruktur fur sensitive Workloads und verwaltete EU-Services fur Aufgaben mit geringerem Risiko nutzt.

Ja. Open-Source-LLMs wie Llama 3.1 405B und Mistral Large 2 konnen auf EU-Infrastruktur selbst gehostet werden und erreichen 92--96 % der Leistung proprietarer Modelle. In Kombination mit EU-gehosteten Vector-Datenbanken (Qdrant, Weaviate) und EU-Region-Orchestrierung kann die gesamte KI-Agenten-Pipeline innerhalb der EU-Grenzen operieren. Dies kostet ca. 2--3-mal mehr als Public-API-Ansatze, eliminiert aber das internationale Ubermittlungsrisiko vollstandig.

Selbst gehostete Open-Source-Modelle liefern First-Token-Latenz von 300--600 ms gegenuber 200--400 ms bei proprietaren APIs. Bei Enterprise-Aufgaben (Dokumentextraktion, Klassifizierung, Workflow-Ausfuhrung) erreichen Open-Source-Modelle 92--96 % der Genauigkeit proprietarer Modelle. Finetuning auf domainspezifischen Daten verkleinert diesen Abstand typischerweise weiter, mit 12--18 % Genauigkeitsverbesserung auf aufgabenspezifischen Benchmarks.

Fur ca. 85 % der Enterprise-KI-Anwendungsfalle erfullen Open-Source-Modelle die Anforderungen ohne Finetuning, steigend auf 95 % mit aufgabenspezifischem Finetuning. Die verbleibenden 5 % -- komplexes mehrstufiges Reasoning uber sehr lange Dokumente oder hochgradig nuancierte Beurteilungen -- konnen weiterhin von proprietaren Modellen profitieren. Der Schlussel liegt in der Evaluierung gegen Ihre spezifischen Anwendungsfalle statt gegen generische Benchmarks.

Artikel 10 der KI-Verordnung verlangt, dass Trainings-, Validierungs- und Testdaten fur Hochrisiko-KI-Systeme einer dokumentierten Governance unterzogen werden, einschliesslich Bias-Prufung, Luckenidentifizierung, Genauigkeitsbewertung und kontextueller Relevanzevaluation. Unternehmen, die Drittanbieter-LLM-APIs nutzen, sehen sich einer Compliance-Lucke gegenuber, weil sie die Trainingsdaten-Governance von Modellen, die sie nicht trainiert haben, nicht dokumentieren konnen -- was ihre eigene Evaluierungs- und Testdokumentation umso kritischer macht.

Wichtigste Erkenntnisse

1Schrems II und die KI-Verordnung erzeugen kumulative Compliance-Risiken fur Unternehmen, die US-gehostete LLM-APIs nutzen -- die Rechtsgrundlage fur diese Ubermittlungen bleibt fragil.
2Drei Architekturen existieren (Public API, Private VPC, vollstandig souveran), jeweils mit klaren Kosten-Compliance-Trade-offs von 4.500 bis 25.000 EUR/Monat fur mittelgrosse Deployments.
3Open-Source-LLMs (Llama 3.1 405B, Mistral Large 2) erreichen mittlerweile 92--96 % der Leistung proprietarer Modelle bei Enterprise-Aufgaben und machen souveranes Deployment technisch realisierbar.
4Ein vollstandig souveraner KI-Stack erfordert sieben Schichten: Ingress, Orchestrierung, LLM-Inferenz, Vector-Datenbank, Data-Connectoren, Monitoring und Sicherheit -- alle innerhalb der EU-Grenzen.
5DSGVO-Artikel-28-AVVs fur KI mussen sechs spezifische Bereiche adressieren: Zweckbindung, Unterauftragsverarbeiter-Transparenz, Datenaufbewahrung, internationale Ubermittlungen, Auditrechte und Vorfallbenachrichtigung.
6Die Data-Governance-Anforderungen der KI-Verordnung nach Artikel 10 begunstigen stark Architekturen, in denen das Unternehmen die Kontrolle uber die Komponenten des KI-Systems behalt.
7Hybride Architekturen -- souveran fur sensitive Workloads, verwaltete EU-Services fur andere -- liefern 80 % des Compliance-Nutzens zu 50 % der Kosten vollstandiger Souveranitat.

Dr. Lena Voss

CTO & Mitgründerin, Korvus Labs

Ehemalige ML-Forschungsleiterin am Fraunhofer IAIS. Dr. Voss hat KI-Agent-Systeme für DAX-40-Unternehmen konzipiert und promovierte in verteilten KI-Systemen an der TU München. Sie verantwortet die gesamte technische Lieferung bei Korvus Labs.

Bereit, Ihren ersten KI-Agenten einzusetzen?

Erstgesprach buchen