Back to all questions

Що таке Tokens в LLM?

JuniorMiddleAI
Seen on interview:1 user

Tokens - це базові одиниці тексту, з якими працює LLM. Модель не читає текст як слова у людському сенсі. Перед обробкою текст проходить через tokenization - процес розбиття рядка на менші елементи: слова, частини слів, пробіли, пунктуацію, іноді навіть окремі символи. Саме ці одиниці і є токенами.

Важливо розуміти, що tokenization може бути як цілим словом, так і лише його фрагментом. Саме тому одна й та сама фраза в різних мовах або навіть у різному контексті може мати різну кількість токенів.

На рівні системного дизайну токени впливають щонайменше на чотири ключові аспекти.

Cost control

У більшості LLM вартість напряму залежить від кількості input і output tokens. Чим довший prompt, history, retrieved context або відповідь моделі - тим дорожчий кожен запит. Одна з рутинних задач AI Engineer - оптимізація prompts, тому вам важливо розуміти, як з цим працювати.

Context window management

Кожна модель має обмеження на максимальну кількість токенів, які вона може обробити в одному запиті. У цей ліміт входять і вхідний текст і майбутня відповідь моделі. Тому хороший AI Engineer думає про те, який контекст дає найбільшу інформаційну цінність на один токен, щоб зробити prompt як можна коротшим і одночасно найбільш ефективним.

Latency

Кількість токенів напряму впливає на швидкість роботи системи. Більше токенів означає довшу обробку input і довшу генерацію output. Це особливо критично для real-time чатів, copilot продуктів і схожих продуктів, де затримка напряму впливає на UX.

Quality and reliability

Tokens впливають не лише на ціну й ліміти, а й на якість відповіді. Якщо prompt перевантажений нерелевантним контекстом, модель гірше фокусується на важливій інформації. У RAG i agent pipelines сценаріях, завдання інженера - оптимально упакувати релевантну інформацію в межах виділеного token budget.

Seen on interview?

Related Questions

SeniorAI

Що таке Embeddings?

Embeddings - це векторне представлення неструктурованих даних, наприклад тексту, у вигляді числового вектора фіксованої довжини. Такий вектор кодує семантичний зміст об’єкта так, що семантично схожі об’єкти розташовуються близько один до одного у векторному просторі.

Завдяки цьому embeddings використовуються для semantic search, clustering, recommendation, deduplication і retrieval у RAG-системах.

Після того, як embeddings згенеровано і збережено, ми можемо порівнювати їх між собою за допомогою метрик на кшталт cosine similarity або виконувати nearest neighbor search, щоб знаходити найбільш релевантні елементи за змістом, а не лише за точним збігом слів.

Наприклад, фрази “How to connect Node.js to PostgreSQL” і “Node.js PostgreSQL database connection” матимуть близькі embeddings, хоча слова в них відрізняються. Саме тому embeddings дають змогу шукати інформацію не лише за точним збігом слів, а й за змістом, що робить його набагато ефективнішим, ніж звичайний full-text пошук.

На цій схемі показано, як embedding model перетворює неструктуровані дані, наприклад текст, зображення або аудіо, на числові вектори. У результаті семантично схожі об’єкти розташовуються поруч у векторному просторі, що дає змогу знаходити пов’язані між собою елементи та виконувати semantic search.

AIMiddleSenior

Поясни різницю між short-term i long-term memory

Це запитання часто звучить на співбесідах на позицію AI Engineer, особливо в продуктах, які працюють з Agentic-системами. Відразу варто наголосити, що в таких розмовах зазвичай йдеться не про імплементацію в конкретних фреймворках, а про розуміння самої концепції.

Short-term memory

Простіше кажучи, це той контекст, який система тримає прямо зараз, щоб не втрачати хід думки, пам’ятати попередні повідомлення, уже виконані кроки та проміжні результати в межах однієї сесії.

Тут важливо розуміти, що short-term memory не використовується як глобальний контекст або повноцінний knowledge layer. Її задача - підтримувати ізольований execution flow, щоб система могла послідовно рухатися в межах конкретної взаємодії.

Простий приклад - coding assistant. Якщо ми створюємо агента в умовному Cursor, він триматиме контекст і історію діалогу тієї задачі, яку ми намагаємося вирішити в межах конкретної сесії. Якщо ж ми створимо нового агента або почнемо нову сесію, він уже не знатиме про інші діалоги, якщо цей контекст не був явно збережений окремо.

Long-term memory

Це знання, які система зберігає між різними сесіями, щоб не починати кожну нову взаємодію з нуля. На відміну від short-term memory, вона не потрібна для локального execution flow, а виступає як knowledge layer, у якому накопичуються стабільні факти, user preferences, патерни поведінки та інший контекст, що має цінність у майбутніх взаємодіях.

Якщо short-term memory відповідає за те, щоб система не втратила стан зараз, то long-term memory відповідає за те, щоб система не втратила корисні знання потім.

SeniorSecurity

Do You Follow the OWASP Top 10?

This is a fairly common question in Senior-level interviews, and it is a standard way to check whether a candidate keeps up with security trends. Usually, you will first be asked about the essence of the project itself, after which you may be asked about the most critical vulnerabilities at the moment.

OWASP Top 10 is a list of the 10 most common and most dangerous security risks in the web, published by OWASP (Open Worldwide Application Security Project). You need to follow it in order to understand how to protect your applications or APIs.

Also, most people do not follow it and have probably never gone beyond XSS, so you can use the OWASP Top 10 as a trump card in an interview that can significantly increase your chances of success.

Comments (0)

Sign in to leave a comment

No comments yet. Be the first!