Ein Chunk ist eine abgrenzbare Informationseinheit, die ein KI-System aus einem Dokument, einer Website oder einer Datenquelle herauslösen, verarbeiten, abrufen und in einer Antwort verwenden kann. In Retrieval-Systemen werden Inhalte dafür in kleinere Segmente zerlegt. OpenAI beschreibt das für Retrieval technisch als Aufteilung von Dateien in Chunks mit definierter Größe und Überlappung. Google beschreibt für RAG und Suchsysteme ebenfalls, dass Dokumente in Chunks zerlegt werden, damit statt ganzer Dokumente gezielt relevante Abschnitte zurückgegeben werden können.
Im GEO ist ein Chunk nicht einfach nur ein kurzer Absatz. Gemeint ist ein inhaltlich geschlossener Abschnitt, der eine Frage, ein Teilthema oder eine klar umrissene Aussage verständlich beantwortet. Ein guter Chunk ist deshalb nicht nur kurz genug für Retrieval, sondern vor allem semantisch sauber. Google betont bei layout-aware chunking ausdrücklich, dass Chunks semantisch kohärent sein sollen und Text aus zusammengehörigen Layouteinheiten wie Überschriften, Unterüberschriften oder Listen stammen sollte.
Für Destinationen und Tourismusverbände ist ein Chunk zum Beispiel ein klarer Abschnitt wie „Beste Reisezeit für den Spreewald im Herbst“, „Anreise nach Helgoland mit Fähre“ oder „Familienfreundliche Museen in Leipzig bei Regen“. Solche Abschnitte sind für KI-Systeme leichter nutzbar als lange, unstrukturierte Fließtexte, weil sie eine konkrete Nutzerfrage in sich geschlossen beantworten.
Chunkfähigkeit
Chunkfähigkeit beschreibt, wie gut sich ein Inhalt in sinnvolle, verständliche und wiederverwendbare Informationseinheiten zerlegen lässt, ohne dass beim Heraustrennen der Sinn verloren geht. Ein chunkfähiger Text besteht also nicht aus beliebig zerstückeltem Content, sondern aus logisch aufgebauten Abschnitten, die jeweils einen klaren Gedanken tragen. Technisch ist das für Retrieval-Systeme relevant, weil Chunks die eigentlichen Einheiten sind, die gesucht, gerankt und in Antworten eingebunden werden. Google verweist dabei auf den Vorteil von Layout-Parsing und layout-aware chunking, weil dadurch semantische Kohärenz erhalten und Störrauschen reduziert wird.
Für GEO im Deutschlandtourismus heißt das: Inhalte sollten so geschrieben und gebaut sein, dass einzelne Abschnitte auch außerhalb des Gesamtkontexts verständlich bleiben. Chunkfähig ist eine Seite dann, wenn Überschriften eindeutig sind, Absätze jeweils ein Thema behandeln, zentrale Begriffe klar genannt werden und der wichtigste Sachverhalt schnell erkennbar ist. Google empfiehlt für seine KI-Sucherfahrungen weiterhin zugängliche, indexierbare und hilfreiche Inhalte mit klar erkennbarem Hauptinhalt. Genau das erhöht auch die Wahrscheinlichkeit, dass einzelne Abschnitte sauber extrahiert und weiterverwendet werden können.
Ein chunkfähiger touristischer Abschnitt wäre zum Beispiel: „Der Baumwipfelpfad im Nationalpark Hainich ist ganzjährig geöffnet. Für Familien sind vor allem die barrierearmen Wege und die kurzen Rundgänge interessant.“ Ein wenig chunkfähiger Abschnitt wäre dagegen ein langer, unscharfer Werbetext, in dem Öffnungszeiten, Zielgruppen, Erlebniswert und Anreise erst nach vielen allgemeinen Sätzen auftauchen. Für GEO ist Chunkfähigkeit deshalb keine reine Formatfrage, sondern eine Kombination aus klarer Struktur, sprachlicher Eindeutigkeit und inhaltlicher Geschlossenheit.
