GlossarKI

Token

Ein Token ist die kleinste Texteinheit, mit der ein Sprachmodell rechnet — meist ein Wortteil, manchmal ein ganzes Wort. Im Deutschen entsprechen rund 1.000 Token etwa 700–750 Wörtern. Tokens bestimmen Kosten, Geschwindigkeit und die Größe des Kontextfensters — und damit, ob KI-Features im Maklerbüro wirtschaftlich sind.

Auch bekannt als: Token · Tokens · Tokenisierung · Tokenizer · Subword-Token · BPE · Byte-Pair-Encoding · Eingabe-Token · Ausgabe-Token · Prompt-Token

Ein Token ist die kleinste Texteinheit, mit der ein Sprachmodell rechnet. Bevor ein LLM Text „liest" oder generiert, wird er in Tokens zerlegt — das können ganze Wörter sein, Wortteile, Satzzeichen oder einzelne Zeichen. Tokens sind die Währung der KI: sie bestimmen, was ein Modell pro Anfrage kostet, wie schnell die Antwort kommt und wie viel in ein Kontextfenster passt. Für den Makleralltag bedeutet das: Token-Effizienz entscheidet darüber, ob ein KI-Feature wirtschaftlich ist oder nicht.

Die Faustregel

Für deutschsprachige Texte gilt grob: 1 Token ≈ 0,7 Wörter, oder umgekehrt: 1.000 Token ≈ 700–750 Wörter ≈ 1,5 DIN-A4-Seiten. Englisch ist deutlich tokensparsamer — dort liegen rund 1.000 Token bei 750–800 Wörtern. Der Unterschied klingt klein, summiert sich aber: ein 5.000-Wörter-Bericht kostet auf Deutsch grob 30–40 % mehr Token als auf Englisch.

Wie eine Tokenisierung tatsächlich aussieht

Der Satz „Die Wohnung in Lindenthal ist verkauft." wird vom Tokenizer eines aktuellen Modells beispielsweise zerlegt in:

Die · Wohnung · in · Linden · thal · ist · verkauft · .

Acht Tokens für sieben Wörter — Eigennamen wie „Lindenthal" werden oft in Stücken zerlegt, weil sie selten genug sind, dass sie als Ganzes kein eigenes Token im Vokabular bekommen haben. Tokenisierer arbeiten meist nach dem Byte-Pair-Encoding-Prinzip (BPE): häufige Sequenzen sind ein Token, seltene werden zerlegt.

Warum deutsche Texte mehr Tokens brauchen

Deutsch ist eine Sprache der Komposita — „Grundstücksverkehrsgenehmigung", „Eigentümerversammlungsprotokoll", „Erschließungsbeitragsbescheid". Wo das Englische zwei oder drei kurze Wörter mit jeweils einem Token verwenden würde, baut das Deutsche ein 25-Buchstaben-Monstrum, das in fünf bis acht Sub-Tokens zerlegt wird. Hinzu kommen Flexionen (Genitiv-„s", Pluralendungen, Verbformen), die im Englischen oft entfallen. In Summe sind deutschsprachige LLM-Anwendungen typischerweise spürbar teurer als ihre englischen Pendants — bei gleicher inhaltlicher Aussage.

Wofür Tokens stehen: Kosten, Geschwindigkeit, Kapazität

Kosten — LLM-Anbieter rechnen pro Token ab, getrennt für Eingabe und Ausgabe. Ausgabe-Token sind je nach Modell drei- bis fünfmal teurer als Eingabe-Token. Wer den Assistenten lange Texte schreiben lässt, zahlt deshalb mehr als wer nur Klassifikationsaufgaben stellt.
Geschwindigkeit — die Antwortzeit hängt direkt an der Anzahl generierter Token. Ein Briefing über 800 Token braucht typischerweise 3–8 Sekunden, ein vollständiges Exposé über 1.500 Token entsprechend länger.
Kapazität — das Kontextfenster ist in Token definiert. Eingabe plus Ausgabe müssen reinpassen, sonst wird abgeschnitten oder die Anfrage scheitert.

Eine Beispielrechnung aus dem Maklerbüro

Ein typischer Vorgang „Exposé für ein Objekt generieren": das Objekt mit 30 Feldern, vorhandenem Stichwort-Text und Lagebeschreibung ergibt rund 2.500 Token Eingabe. Dazu kommt der System-Prompt mit Stilvorgaben (rund 800 Token) und eventuell ein Referenz-Exposé desselben Maklers als Stilanker (rund 1.200 Token). Eingabe insgesamt: rund 4.500 Token. Die Ausgabe — ein vollständiges Exposé mit Lage-, Objekt- und Ausstattungsabschnitt — liegt bei 1.200 bis 1.800 Ausgabe-Token. Macht in Summe rund 6.000 Token pro Exposé, bei aktuellen Anbieter-Preisen für Top-Modelle (Stand Mai 2026) Größenordnung 5–15 Cent pro Generierung. Das skaliert: 1.000 Exposés im Monat sind eine zwei- bis dreistellige Eurosumme, kein vierstelliger Posten.

Token-Sparpotentiale, die wirklich etwas bringen

Wer Token-Kosten steuern will, hat drei Hebel. Erstens: kein Dump statt gezielter Auswahl — nur die wirklich relevanten Datensätze in den Prompt holen, nicht die ganze Akte. Zweitens: Prompt Caching nutzen — wenn der System-Prompt oder ein langer Referenztext sich nicht ändert, lassen ihn Anthropic und OpenAI vergünstigt im Cache wiederverwenden (oft 10× günstiger). Drittens: pro Aufgabe das passende Modell — eine Lead-Klassifizierung („Kauf, Miete oder Bewertung?") braucht kein Top-Modell, das ein schnelles und billiges Modell genauso gut erledigt.

So setzt propgen das um

propgen arbeitet konsequent token-effizient. Über gezielten Datenzugriff wandert nur das in den Prompt, was zur Aufgabe gehört — nicht die ganze CRM-Akte. Die Modellauswahl passiert pro Modul, nicht als Pauschal-„Wir nutzen Claude": klassifizierende Aufgaben gehen an kleine Modelle, komplexe Reasoning-Aufgaben an Top-Modelle, Bildverarbeitung an spezialisierte Vision-Modelle. Wo Standard-Prompts mehrfach wiederverwendet werden, kommt Prompt Caching zum Einsatz.

Praktischer Effekt für den Makler: pro Nutzer und Monat ist ein großzügiges Kontingent von 10 Mio. Token in der propgen-Lizenz enthalten — kein Pay-per-Token-Schock pro Assistenten-Frage, sondern eine kalkulierbare Größe. Der Aufwand für Token-Optimierung liegt bei propgen, nicht bei Dir.