Tokens - це базові одиниці тексту, з якими працює LLM. Модель не читає текст як слова у людському сенсі. Перед обробкою текст проходить через tokenization - процес розбиття рядка на менші елементи: слова, частини слів, пробіли, пунктуацію, іноді навіть окремі символи. Саме ці одиниці і є токенами.
Важливо розуміти, що tokenization може бути як цілим словом, так і лише його фрагментом. Саме тому одна й та сама фраза в різних мовах або навіть у різному контексті може мати різну кількість токенів.
На рівні системного дизайну токени впливають щонайменше на чотири ключові аспекти.
Cost control
У більшості LLM вартість напряму залежить від кількості input і output tokens. Чим довший prompt, history, retrieved context або відповідь моделі - тим дорожчий кожен запит. Одна з рутинних задач AI Engineer - оптимізація prompts, тому вам важливо розуміти, як з цим працювати.
Context window management
Кожна модель має обмеження на максимальну кількість токенів, які вона може обробити в одному запиті. У цей ліміт входять і вхідний текст і майбутня відповідь моделі. Тому хороший AI Engineer думає про те, який контекст дає найбільшу інформаційну цінність на один токен, щоб зробити prompt як можна коротшим і одночасно найбільш ефективним.
Latency
Кількість токенів напряму впливає на швидкість роботи системи. Більше токенів означає довшу обробку input і довшу генерацію output. Це особливо критично для real-time чатів, copilot продуктів і схожих продуктів, де затримка напряму впливає на UX.
Quality and reliability
Tokens впливають не лише на ціну й ліміти, а й на якість відповіді. Якщо prompt перевантажений нерелевантним контекстом, модель гірше фокусується на важливій інформації. У RAG i agent pipelines сценаріях, завдання інженера - оптимально упакувати релевантну інформацію в межах виділеного token budget.