GPT liest deine Sprache wie ein Kind, das noch nicht lesen kann
Tokenisierung erklärt: warum KI Deutsch schlechter versteht als Englisch, und was das mit dir zu tun hat.
Stell dir vor, du lernst Deutsch. Dein Lehrer gibt dir einen Text, aber anstatt Wörter zu zeigen, schneidet er den Text in zufällige Stücke. Nicht nach Sinn. Nach dem, was am häufigsten vorkommt.
„Unvorhergesehen" wird zu Un / vor / her / ge / sehen. Fünf Stücke statt einem Wort. Das ist kein Witz. Genau so arbeitet GPT. Es nennt sich Tokenisierung, und es ist der Grund, warum diese Modelle Deutsch deutlich schlechter verarbeiten als Englisch.
Englisch hat kurze Wörter. „See", „run", „big". Ein Wort, ein Token. Deutsch baut Wörter wie Legotürme. „Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz" ist ein echtes deutsches Wort. Für GPT ist das ein kleines Trauma.
Weiterlesen
Kostenlos weiterlesen
Abonniere den Newsletter und lies alle Artikel vollständig – plus neue Essays alle zwei Wochen direkt ins Postfach.
Kein Spam. Kein Lernplan. Jederzeit abmeldbar.