Как понять, что мой AI-агент тратит слишком много токенов?

 Публичный пост

Гоняю AI-агента под рабочие задачи и никак не пойму: расход токенов у меня большой или это в порядке вещей? Сравнить не с чем, ориентира нет.

Думал сделать простой бенчмарк — взять типовой запрос (например, «прогноз погоды на сегодня») и смотреть: уложился в N токенов — ок, в разы больше — значит где-то косячу.

Как вы меряете расход? Есть какие-то ориентиры или готовые бенчмарки, на которые можно опереться? И вообще, стоит ли с этим заморачиваться или это пустая трата времени?

 Ответ эксперта
Аватар Леон
Леон 🎓 Эксперт
CMO

Сразу скажу: не надо страдать по токенам и пытаться их любой ценой ужать. Это очень частая ловушка — сэкономить на бумаге и проиграть по факту.

Цифрам в отчётах верить нельзя. Расход зависит от кеша провайдера — холодный, горячий и вызов инструмента считаются по-разному. На каждый ход агента в контекст заново летит всё, что там накопилось: без кеша это горит, с кешем — нет. Поэтому «стало на 50% меньше» в статистике часто вообще не бьётся с реальным счётом.

«Сжатие токенов» — красивая иллюзия. Сейчас модно прикручивать инструменты, которые ужимают вывод терминала и обещают «−60–90% токенов». Пшемек Мрочек (mroczek.dev) это хорошо разобрал: эти проценты — не падение твоего счёта, а всего лишь доля сырого вывода консоли, которую вырезали. Самое дорогое они не трогают вообще: глубокие чтения файлов, контекст репозитория, системные промпты и токены рассуждения самой модели.

И есть скрытая опасность: агент не знает, что текст урезали. Вырезали важную строку из стектрейса ради пары токенов — и вы оба работаете вслепую. Причём молча, без ошибки: модели просто подсунули обрезок. Дальше она галлюцинирует, ломает сборку или ходит по кругу — и сжигает больше, чем «сэкономила».

Мерить надо не токены, а долю решённых задач. Минус 80% на промпте — это минус, если из-за потери контекста агент пошёл вразнос. Нужна компактность — бери нативные режимы инструментов (--json, структурный вывод), а не хрупкий сторонний парсинг.

А если реально упираешься в лимиты — переделывай процесс, а не дави токены:

  • Посмотри, не перечитываются ли одни и те же файлы по десять раз. Обработай один раз, сожми в тезисы — и переиспользуй, а не скармливай сырьё на каждый ход.
  • Залезь в свои AGENTS.md / CLAUDE.md: там часто висит раздутый контекст, который едет в каждый запрос.
  • Повторяющуюся рутину выноси в формализованные пайплайны или дешёвых воркеров. Большая модель думает, мелкие исполняют — так и по деньгам, и по результату лучше.

Короче: оптимизируй процесс и результат, а не цифру в дашборде. «−90% токенов» при «−30% сделанных задач» — это не оптимизация, это самообман.

2 комментария 👇

Доброго дня! Мне помогает периодический чек второго пункта, его актуальность на данный момент, а не тот, что был 1-2 месяца назад

  Развернуть 1 комментарий

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб