KI & LLMs18 April 20267 min Min. Lesezeit

RAG vs. Fine-Tuning: Ein Entscheidungsrahmen für produktionsreife KI

Die meisten Teams greifen zu Fine-Tuning, obwohl RAG schneller, günstiger und einfacher zu aktualisieren wäre. Hier ist der Entscheidungsrahmen, den wir bei jedem KI-Projekt einsetzen.

Die meisten Teams, mit denen wir sprechen, greifen standardmäßig zu Fine-Tuning, weil es seriöser klingt — wie echte ML-Arbeit. In der Praxis war RAG (Retrieval-Augmented Generation) bei etwa 80 % der produktionsreifen KI-Anwendungen, die wir ausgeliefert haben, die bessere Wahl. Schnellere Auslieferung, geringere Wartungskosten, und wenn sich die zugrunde liegenden Daten ändern, ist kein erneuter Trainingslauf erforderlich.

Das ist kein Argument gegen Fine-Tuning. Fine-Tuning ist das richtige Werkzeug in bestimmten Szenarien. Das Problem ist, dass die meisten Teams es ohne einen klaren Rahmen wählen, am Ende einen teuren Trainingslauf mit veralteten Daten durchführen und sich fragen, warum das Modell immer noch halluziniert.

Was ist RAG?

RAG lässt das Basismodell unverändert. Das Domain-Wissen wird in einer Vektordatenbank gespeichert. Zur Abfragezeit werden die relevantesten Chunks abgerufen und als Kontext in den Prompt eingefügt. Das Modell muss die Fakten nicht kennen — es muss nur über das nachdenken, was man ihm gibt.

  • Wissen lebt außerhalb des Modells — ein Dokument aktualisieren, die Änderung ist sofort aktiv
  • Vollständige Quellenangabe — man weiß genau, welcher Chunk die Antwort erzeugt hat
  • Funktioniert mit jedem Foundation-Modell — GPT-4 gegen Claude tauschen ohne Datenarbeit
  • Keine GPU-Trainingskosten

Was ist Fine-Tuning?

Fine-Tuning modifiziert die Modellgewichte, indem es auf einem kuratierten Datensatz trainiert wird. Das Wissen wird in das Modell selbst eingebettet. Es verändert, was das Modell weiß und wie es sich verhält — einschließlich Ton, Ausgabeformat und Domain-Vokabular.

  • Persistente Stil-/Formatänderungen eingebettet — kein Prompt-Engineering nötig
  • Kann Token-Verbrauch bei repetitiven Aufgaben deutlich reduzieren
  • Geringere Latenz bei hohem Durchsatz (kein Retrieval-Schritt)
  • Besser für stabile, klar abgegrenzte Wissensbereiche

Der Entscheidungsrahmen

Diese fünf Fragen sollten beantwortet werden, bevor man sich für einen Ansatz entscheidet:

  1. 1.Wie oft ändert sich das Wissen? Wenn Dokumente wöchentlich oder häufiger aktualisiert werden — RAG. Bei einem festen Korpus (z. B. ein medizinischer Codierungsstandard) — Fine-Tuning ist viable.
  2. 2.Wie viele gelabelte Trainingsdaten stehen zur Verfügung? Fine-Tuning benötigt Tausende hochwertiger Beispiele. Unter ~500 Beispielen sind inkonsistente Ergebnisse zu erwarten.
  3. 3.Ist eine Quellenangabe erforderlich? Regulatorische, rechtliche oder Support-Anwendungsfälle erfordern oft die Angabe der Quelle. RAG liefert das nativ. Fine-Tuning nicht.
  4. 4.Geht es bei der Aufgabe um Wissen oder Verhalten? Das Modell dazu bringen, in JSON zu antworten, eine Markenstimme zu nutzen oder einem strengen Format zu folgen = Fine-Tuning. Dem Modell Fakten beibringen, die es nicht kennt = RAG.
  5. 5.Wie hoch ist das Inference-Budget? RAG fügt einen Retrieval-Schritt hinzu (15–80 ms je nach Vektordatenbank). Bei Echtzeit- und Hochfrequenz-Workloads spielt das eine Rolle.

Wann RAG gewinnt

  • Interne Wissensdatenbanken, Docs, Wikis — Inhalte ändern sich ständig
  • Kundensupport-Bots, die Richtliniendokumente zitieren müssen
  • Rechts- und Compliance-Tools — jede Antwort muss nachvollziehbar sein
  • Produkt-Q&A über einen großen, sich entwickelnden Katalog
  • Jeder Fall, in dem „Ich weiß es nicht" besser ist als eine selbstsichere falsche Antwort

Wann Fine-Tuning gewinnt

  • Streng konsistentes Ausgabeformat erforderlich (strukturiertes JSON, spezifisches Schema)
  • Domain-Vokabular, das das Basismodell schlecht beherrscht (hochspezialisierte medizinische, rechtliche oder technische Begriffe)
  • Sehr hohes Query-Volumen, bei dem die Retrieval-Latenz ein echtes Bottleneck ist
  • Stil oder Ton, der über alle Ausgaben hinweg tief konsistent sein muss
  • Die Aufgabe ist grundlegend Klassifikation oder Extraktion, keine Generierung

Der Hybrid: RAG + Fine-Tuning

Die beiden Ansätze schließen sich nicht gegenseitig aus. Für produktionsreife Systeme, die komplexe, geschäftskritische Aufgaben übernehmen, kombinieren wir sie oft: das Modell für konsistentes Ausgabeformat und Ton fine-tunen, dann RAG für Live-Wissensabruf hinzufügen. Das gibt das Beste aus beiden Welten — zuverlässiges Verhalten eingebettet und Wissen, das ohne erneuten Trainingszyklus aktualisiert werden kann.

💡

Faustregel: Mit RAG beginnen. Es ist fast immer schneller auszuliefern, günstiger zu iterieren und sicherer zu betreiben. Erst auf Fine-Tuning wechseln, wenn eine spezifische Grenze erreicht wird — und genau dokumentieren, was diese Grenze ist, bevor der Trainingslauf gestartet wird.

RAGLLMOpenAILangChain

Dieses Problem in Produktion? Wir helfen.

Kostenloses technisches Review buchen