Eine verständliche Einführung in das Training von Large Language Models

Sam Schriemer
vor 13 Stunden
7 Min. Lesezeit

Eine einfache Erklärung der Pre-Training Phase, ganz ohne Mathe Panik. Dieser Beitrag basiert auf Andrej Karpathys Deep Dive into Large Language Models und fasst ausgewählte Aspekte des Pre-Training Prozesses zusammen. Karpathy ist KI Forscher und ehemaliger Ingenieur bei OpenAI und Tesla, weithin bekannt für seine didaktische Arbeit zu neuronalen Netzwerken.

In diesem Blogbeitrag fassen wir den Pre-Training Teil des Videos zusammen, also den Abschnitt, der oft Reaktionen wie „Moment... Zahlen, Symbole, Tokens?" oder „Was bedeutet Training überhaupt?" auslöst. Unser Ziel ist es, diesen Prozess zu entmystifizieren und einen allgemeinen Überblick zu geben, was da eigentlich passiert: kein Code, keine Formeln und kein Machine Learning Studium nötig. Einfach eine klare, verständliche Erklärung, wie Large Language Models ihren Anfang nehmen.

Was bedeutet "Pre-Training" eigentlich?

Wenn Leute vom Training eines Large Language Models sprechen, meinen sie normalerweise das Pre-Training. Das ist die allererste und grundlegendste Phase beim Aufbau eines LLM. Während des Pre-Trainings beantwortet das Modell noch keine Fragen und verhält sich noch nicht wie ein Assistent. Stattdessen lernt es einfach, wie Sprache funktioniert, indem es riesige Mengen an Text liest und Muster erkennt.

Im Video wird dieser gesamte Prozess in drei große Schritte unterteilt: Internettext sammeln, diesen Text in ein Format umwandeln, das ein Computer verstehen kann, und dann ein neuronales Netzwerk trainieren, vorherzusagen, was als Nächstes in einem Text kommt. Das klingt vielleicht einschüchternd, aber die grundlegende Idee ist überraschend einfach.

Internettext sammeln und bereinigen

Alles beginnt mit Daten. Um einem Modell beizubringen, wie Sprache funktioniert, braucht man eine enorme Menge an Text. Dieser Text stammt aus dem Internet und wird mit Web Crawlern gesammelt. Diese Crawler laden den rohen HTML Code von Websites herunter, der alles Mögliche enthält: Artikel, Blogbeiträge, Navigationsmenüs, Werbung und Styling Code.

Natürlich muss ein Sprachmodell nicht von Cookie Bannern oder Website Fußzeilen lernen.

Bevor der Text also verwendet werden kann, durchläuft er eine intensive Bereinigung und Filterung. Dabei werden minderwertige Quellen, Spam, Erwachseneninhalte, Betrugsseiten und alles entfernt, was keine sinnvolle geschriebene Sprache ist. Der sichtbare Text wird extrahiert, unnötige Formatierung wird entfernt und persönlich identifizierbare Informationen wie Telefonnummern oder Adressen werden gelöscht.

Beispiel für den FineWeb Datensatz:

Image Source

Man kann sich das Bild oben als große Mengen an Webtext vorstellen, die bereits auf viele Arten gefiltert wurden. Jede Zeile repräsentiert Inhalt, der von einer Website geholt und so bereinigt wurde, dass nur der bedeutungsvolle, menschenlesbare Text übrig bleibt. Sobald diese Filterung abgeschlossen ist, wird der gesamte Text zu einer riesigen Sammlung zusammengeführt. Das Ergebnis ist ein kontinuierlicher Strom von Sprache, wie im Beispiel unten gezeigt.

Image Source

Text in Tokens umwandeln

Sobald all dieser Text gesammelt und bereinigt wurde, stellt sich die Frage, wie man ihn tatsächlich in ein neuronales Netzwerk einspeist. Neuronale Netzwerke verstehen keine Dokumente, Absätze oder auch nur Wörter. Sie erwarten eine einzige, lange, eindimensionale Folge von Symbolen. Auf der grundlegendsten Ebene wird alles, was ein Computer verarbeitet, zu Kombinationen von nur zwei Symbolen: 0 und 1. Das funktioniert zwar, erzeugt aber extrem lange Sequenzen, und Sequenzlänge ist eine begrenzte Ressource. Statt direkt mit rohen Bits zu arbeiten, verwenden wir intelligentere Darstellungen, die denselben Text mit bedeutungsvolleren Symbolen und kürzeren Sequenzen erfassen.

Das ist die Brücke zwischen menschenlesbarem Text und maschinenlesbarer Eingabe, und es beginnt damit, all diese bereinigten Internetdaten als einen kontinuierlichen Textstrom zu behandeln, wie im Bild unten.

Image Source

Um diese langen Sequenzen handhabbarer zu machen, wird der Text zunächst in Bytes zerlegt, die kürzer und für Computer leichter zu verarbeiten sind als rohe Bits. Von dort aus hilft es, nicht mehr in Zahlen zu denken, sondern jede Einheit als ein einzigartiges Symbol zu betrachten, fast wie ein Emoji, das das Modell erkennen kann. Tokenization baut auf dieser Idee auf, indem Symbole, die häufig nebeneinander erscheinen, gruppiert werden. Mit Techniken wie Byte-Pair Encoding verschmilzt das Modell wiederholt häufige Muster zu neuen, größeren Symbolen. Zum Beispiel werden Zeichenfolgen, die oft vorkommen, zu einem einzelnen Token kombiniert, was die Gesamtsequenz verkürzt und gleichzeitig die Information bewahrt. Dieser Prozess setzt sich fort, bis der Text als eine Folge von Tokens dargestellt wird, jedes mit seiner eigenen eindeutigen ID.

Das Modell sieht niemals den Originaltext, nur diese IDs.

Tools wie Tiktokenizer machen diesen Prozess sichtbar, aber die Kernidee ist einfach: Tokenization ist ein Übersetzungsschritt, der menschliche Sprache in eine kompakte, strukturierte Folge von Symbolen verwandelt, von der ein neuronales Netzwerk lernen kann.

Lernen durch Vorhersage des nächsten Elements

Sobald der Text in Tokens umgewandelt wurde, kann das Training beginnen. Dem Modell wird eine kurze Folge von Token IDs gezeigt, die als Kontext dienen. Man kann sich das so vorstellen, als würde man dem Modell die ersten paar Wörter eines Satzes geben und es bitten zu raten, was als Nächstes kommt. Die Eingabe in das neuronale Netzwerk ist einfach eine Folge von Tokens, und die Ausgabe ist eine Vorhersage des nächsten Tokens in der Sequenz.

Zu Beginn des Trainings sind diese Vorhersagen im Wesentlichen zufällig. Für jede Eingabesequenz weist das Modell jedem Token, das es kennt, Wahrscheinlichkeiten zu und macht eine erste Schätzung, welches am wahrscheinlichsten als Nächstes kommt. Da das korrekte nächste Token bereits aus dem Datensatz bekannt ist, kann die Schätzung des Modells mit der richtigen Antwort verglichen werden. Wenn das korrekte Token eine niedrige Wahrscheinlichkeit hat, wird das Modell so angepasst, dass es beim nächsten Mal diesem Token eine höhere Wahrscheinlichkeit zuweist und den anderen eine niedrigere.

Dieser Zyklus aus Raten, Vergleichen und Korrigieren wiederholt sich für jedes Token über den gesamten Datensatz, alles parallel. Mit der Zeit beginnen die Vorhersagen des Modells, besser zu den Mustern in echter Sprache zu passen. Dieser wiederholte Prozess ist das, was wir meinen, wenn wir sagen, das Modell lernt vorherzusagen, was als Nächstes kommt.

Was steckt im Inneren des neuronalen Netzwerks?

Hinter den Kulissen wird das Verhalten des Modells durch Milliarden von einstellbaren Werten gesteuert, die Parameter genannt werden. Diese Parameter bestimmen, wie Eingabe Tokens in Ausgabe Vorhersagen umgewandelt werden. Zu Beginn des Trainings sind sie zufällig gesetzt, weshalb die frühen Vorhersagen des Modells schlecht sind.

Image Source

Jeder Parameter spielt eine sehr kleine Rolle, aber zusammen bilden sie ein riesiges mathematisches System, das die Ausgaben des Modells formt. Während das Training fortschreitet, werden diese Parameter schrittweise so angepasst, dass das Modell besser darin wird, genaue Vorhersagen zu treffen. Karpathys Video vergleicht sie mit Reglern an einem DJ Mischpult: Einen Regler leicht zu drehen verändert den Sound, und viele Regler zusammen anzupassen kann das Ergebnis dramatisch verbessern.

Vom Training zur Inference

Sobald das Training abgeschlossen ist, hört das Modell auf zu lernen und geht in eine Phase über, die Inference genannt wird. Das ist der Teil, mit dem wir als Nutzer interagieren. Um neuen Text zu generieren, startet das Modell mit einer kleinen Menge von Präfix Tokens, normalerweise den Wörtern, die du in einen Prompt tippst. Diese Tokens werden in das Netzwerk eingespeist, das eine Wahrscheinlichkeitsverteilung über alle möglichen nächsten Tokens produziert. Statt immer die wahrscheinlichste Option zu wählen, sampelt das Modell aus dieser Verteilung, ähnlich wie beim Werfen einer gezinkten Münze. Das führt zu Variation und lässt Antworten natürlich statt repetitiv wirken.

Jedes Mal, wenn ein Token gesampelt wird, wird es zur Sequenz hinzugefügt und wieder ins Modell eingespeist, wodurch sich der Prozess wiederholen kann. Token für Token baut das Modell eine Antwort auf, während es den Mustern folgt, die es während des Trainings gelernt hat. Aus Nutzersicht fühlt sich Inference einfach so an, als würde das Modell "nachdenken" und eine Antwort eintippen. Unter der Haube ist es nur das wiederholte Vorhersagen und Sampeln des nächsten Tokens basierend auf Wahrscheinlichkeiten, die aus riesigen Textmengen gelernt wurden.

Warum das so viel Rechenleistung braucht

Das Training eines Large Language Models ist keine einmalige Berechnung. Es ist ein langer, iterativer Prozess, bei dem das Modell Millionen oder sogar Milliarden Male aktualisiert wird. Jeder Trainingsschritt nimmt eine winzige Anpassung am neuronalen Netzwerk vor, basierend darauf, wie gut es das nächste Token vorhergesagt hat. Forscher überwachen diesen Prozess mit einer Metrik namens Loss, einer einzelnen Zahl, die zusammenfasst, wie gut das Modell in diesem Moment performt. Ein niedrigerer Loss bedeutet, dass sich die Vorhersagen des Modells verbessern. Während das Training läuft, ist das Ziel einfach zu sehen, wie der Loss mit der Zeit allmählich sinkt.

Weil diese Updates ständig und über massive Datenmengen hinweg passieren, kann diese Art von Training realistisch nicht auf einem Laptop durchgeführt werden. Die Modelle sind zu groß und die Berechnungen zu intensiv. Stattdessen läuft das Training in der Cloud auf spezialisierter Hardware namens GPUs, die besonders gut für die Art von paralleler Mathematik geeignet sind, die neuronale Netzwerke erfordern. Jede Zeile, die du in einem Trainingslog siehst, repräsentiert ein kleines Update am Modell, und zusammen formen Millionen dieser Updates langsam das Netzwerk zu etwas Nützlichem.

Um diesen Prozess zu skalieren, werden GPUs zu Maschinen gruppiert, Maschinen zu Clustern und Cluster in großen Rechenzentren untergebracht. Je mehr GPUs man hat, desto mehr Daten kann man trainieren und desto schneller kann sich das Modell verbessern. Das ist der Grund, warum die Nachfrage nach GPUs in die Höhe geschossen ist und warum das Training von hochmodernen Sprachmodellen typischerweise etwas ist, das sich nur große Organisationen leisten können. Sobald das Training abgeschlossen ist und der Loss sich stabilisiert hat, kann das fertige Modell veröffentlicht und für Inference verwendet werden, was der viel leichtere Prozess ist, mit dem Nutzer interagieren.

Zusammenfassung: Das große Ganze und was als Nächstes kommt

Wenn man herauszoomt, folgt Pre-Training einer einfachen Schleife. Große Mengen Text sammeln und bereinigen, in Tokens aufteilen, dann ein neuronales Netzwerk trainieren vorherzusagen, was als Nächstes kommt, und es jedes Mal anpassen, wenn es falsch liegt. Das im massiven Maßstab wiederholen, bis die Vorhersagen konsistent und stark werden.

Am Ende des Pre-Trainings hat das Modell nicht das Internet auswendig gelernt.

Stattdessen hat es die Muster der Sprache gelernt, die in seinen Parametern komprimiert sind. Diese Phase macht den Großteil der Zeit, Kosten und Rechenleistung aus, die beim Aufbau eines Modells anfallen, und kann Monate dauern.

Danach kommt das Post-Training, bei dem das Modell in einen Assistenten verwandelt wird. Statt Internettext vorherzusagen, wird es auf Gesprächen zwischen Menschen und Assistenten trainiert und lernt, auf hilfreiche und konversationelle Weise zu antworten. Dieser Prozess basiert immer noch auf Tokens und neuronalen Netzwerk Training, ist aber viel leichter als Pre-Training und kann Stunden statt Monate dauern.

Im nächsten Beitrag werden wir tiefer in Post-Training, Conversations und wie Assistenten geformt werden eintauchen.