Повернутися до всіх запитань

Що таке Tokens в LLM?

JuniorMiddleAI
Зустрічали на інтервʼю:1 користувач

Tokens - це базові одиниці тексту, з якими працює LLM. Модель не читає текст як слова у людському сенсі. Перед обробкою текст проходить через tokenization - процес розбиття рядка на менші елементи: слова, частини слів, пробіли, пунктуацію, іноді навіть окремі символи. Саме ці одиниці і є токенами.

Важливо розуміти, що tokenization може бути як цілим словом, так і лише його фрагментом. Саме тому одна й та сама фраза в різних мовах або навіть у різному контексті може мати різну кількість токенів.

На рівні системного дизайну токени впливають щонайменше на чотири ключові аспекти.

Cost control

У більшості LLM вартість напряму залежить від кількості input і output tokens. Чим довший prompt, history, retrieved context або відповідь моделі - тим дорожчий кожен запит. Одна з рутинних задач AI Engineer - оптимізація prompts, тому вам важливо розуміти, як з цим працювати.

Context window management

Кожна модель має обмеження на максимальну кількість токенів, які вона може обробити в одному запиті. У цей ліміт входять і вхідний текст і майбутня відповідь моделі. Тому хороший AI Engineer думає про те, який контекст дає найбільшу інформаційну цінність на один токен, щоб зробити prompt як можна коротшим і одночасно найбільш ефективним.

Latency

Кількість токенів напряму впливає на швидкість роботи системи. Більше токенів означає довшу обробку input і довшу генерацію output. Це особливо критично для real-time чатів, copilot продуктів і схожих продуктів, де затримка напряму впливає на UX.

Quality and reliability

Tokens впливають не лише на ціну й ліміти, а й на якість відповіді. Якщо prompt перевантажений нерелевантним контекстом, модель гірше фокусується на важливій інформації. У RAG i agent pipelines сценаріях, завдання інженера - оптимально упакувати релевантну інформацію в межах виділеного token budget.

Зустрічав на інтервʼю?

Повʼязані питання

SeniorAI

Що таке Embeddings?

Embeddings - це векторне представлення неструктурованих даних, наприклад тексту, у вигляді числового вектора фіксованої довжини. Такий вектор кодує семантичний зміст об’єкта так, що семантично схожі об’єкти розташовуються близько один до одного у векторному просторі.

Завдяки цьому embeddings використовуються для semantic search, clustering, recommendation, deduplication і retrieval у RAG-системах.

Після того, як embeddings згенеровано і збережено, ми можемо порівнювати їх між собою за допомогою метрик на кшталт cosine similarity або виконувати nearest neighbor search, щоб знаходити найбільш релевантні елементи за змістом, а не лише за точним збігом слів.

Наприклад, фрази “How to connect Node.js to PostgreSQL” і “Node.js PostgreSQL database connection” матимуть близькі embeddings, хоча слова в них відрізняються. Саме тому embeddings дають змогу шукати інформацію не лише за точним збігом слів, а й за змістом, що робить його набагато ефективнішим, ніж звичайний full-text пошук.

На цій схемі показано, як embedding model перетворює неструктуровані дані, наприклад текст, зображення або аудіо, на числові вектори. У результаті семантично схожі об’єкти розташовуються поруч у векторному просторі, що дає змогу знаходити пов’язані між собою елементи та виконувати semantic search.

AIMiddleSenior

Поясни різницю між short-term i long-term memory

Це запитання часто звучить на співбесідах на позицію AI Engineer, особливо в продуктах, які працюють з Agentic-системами. Відразу варто наголосити, що в таких розмовах зазвичай йдеться не про імплементацію в конкретних фреймворках, а про розуміння самої концепції.

Short-term memory

Простіше кажучи, це той контекст, який система тримає прямо зараз, щоб не втрачати хід думки, пам’ятати попередні повідомлення, уже виконані кроки та проміжні результати в межах однієї сесії.

Тут важливо розуміти, що short-term memory не використовується як глобальний контекст або повноцінний knowledge layer. Її задача - підтримувати ізольований execution flow, щоб система могла послідовно рухатися в межах конкретної взаємодії.

Простий приклад - coding assistant. Якщо ми створюємо агента в умовному Cursor, він триматиме контекст і історію діалогу тієї задачі, яку ми намагаємося вирішити в межах конкретної сесії. Якщо ж ми створимо нового агента або почнемо нову сесію, він уже не знатиме про інші діалоги, якщо цей контекст не був явно збережений окремо.

Long-term memory

Це знання, які система зберігає між різними сесіями, щоб не починати кожну нову взаємодію з нуля. На відміну від short-term memory, вона не потрібна для локального execution flow, а виступає як knowledge layer, у якому накопичуються стабільні факти, user preferences, патерни поведінки та інший контекст, що має цінність у майбутніх взаємодіях.

Якщо short-term memory відповідає за те, щоб система не втратила стан зараз, то long-term memory відповідає за те, щоб система не втратила корисні знання потім.

SeniorSecurity

Чи слідкуєш ти за OWASP Top 10?

Це питання доволі часто ставлять на Senior інтервʼю і воно є стандартною перевіркою на те чи кандидат слідкує за трендами в безпеці. Зазвичай, вас запитають про саму суть проєкту, після чого можуть запитати про найбільш критичні уразливості на даний момент.

OWASP Top 10 - це список 10 найпоширеніших і найнебезпечніших ризиків для безпеки в WEB, який публікує OWASP (Open Worldwide Application Security Project). Слідкувати за ним потрібно для того, щоб розуміти як можна захистити ваші застосунки чи API.

Також, більшість людей за ним не слідкує і навряд чи заходили далі XSS тому ви можете використовувати OWASP Top 10, як козирь на інтервʼю, який значно збільшує ваші шанси на успіх.

Коментарі (0)

Увійдіть, щоб залишити коментар

Поки що немає коментарів. Будьте першим!