Що таке Tokens в LLM?

Tokens - це базові одиниці тексту, з якими працює LLM. Модель не читає текст як слова у людському сенсі. Перед обробкою текст проходить через tokenization - процес розбиття рядка на менші елементи: слова, частини слів, пробіли, пунктуацію, іноді навіть окремі символи. Саме ці одиниці і є токенами.

Важливо розуміти, що tokenization може бути як цілим словом, так і лише його фрагментом. Саме тому одна й та сама фраза в різних мовах або навіть у різному контексті може мати різну кількість токенів.

На рівні системного дизайну токени впливають щонайменше на чотири ключові аспекти.

Cost control

У більшості LLM вартість напряму залежить від кількості input і output tokens. Чим довший prompt, history, retrieved context або відповідь моделі - тим дорожчий кожен запит. Одна з рутинних задач AI Engineer - оптимізація prompts, тому вам важливо розуміти, як з цим працювати.

Context window management

Кожна модель має обмеження на максимальну кількість токенів, які вона може обробити в одному запиті. У цей ліміт входять і вхідний текст і майбутня відповідь моделі. Тому хороший AI Engineer думає про те, який контекст дає найбільшу інформаційну цінність на один токен, щоб зробити prompt як можна коротшим і одночасно найбільш ефективним.

Latency

Кількість токенів напряму впливає на швидкість роботи системи. Більше токенів означає довшу обробку input і довшу генерацію output. Це особливо критично для real-time чатів, copilot продуктів і схожих продуктів, де затримка напряму впливає на UX.

Quality and reliability

Tokens впливають не лише на ціну й ліміти, а й на якість відповіді. Якщо prompt перевантажений нерелевантним контекстом, модель гірше фокусується на важливій інформації. У RAG i agent pipelines сценаріях, завдання інженера - оптимально упакувати релевантну інформацію в межах виділеного token budget.

Embeddings - це векторне представлення неструктурованих даних, наприклад тексту, у вигляді числового вектора фіксованої довжини. Такий вектор кодує семантичний зміст об’єкта так, що семантично схожі об’єкти розташовуються близько один до одного у векторному просторі.

Завдяки цьому embeddings використовуються для semantic search, clustering, recommendation, deduplication і retrieval у RAG-системах.

Після того, як embeddings згенеровано і збережено, ми можемо порівнювати їх між собою за допомогою метрик на кшталт cosine similarity або виконувати nearest neighbor search, щоб знаходити найбільш релевантні елементи за змістом, а не лише за точним збігом слів.

Наприклад, фрази “How to connect Node.js to PostgreSQL” і “Node.js PostgreSQL database connection” матимуть близькі embeddings, хоча слова в них відрізняються. Саме тому embeddings дають змогу шукати інформацію не лише за точним збігом слів, а й за змістом, що робить його набагато ефективнішим, ніж звичайний full-text пошук.

На цій схемі показано, як embedding model перетворює неструктуровані дані, наприклад текст, зображення або аудіо, на числові вектори. У результаті семантично схожі об’єкти розташовуються поруч у векторному просторі, що дає змогу знаходити пов’язані між собою елементи та виконувати semantic search.

Cost control

Context window management

Latency

Quality and reliability

Повʼязані питання

Що таке Embeddings?

Поясни різницю між short-term i long-term memory

Short-term memory

Long-term memory

Чи слідкуєш ти за OWASP Top 10?

Коментарі (0)