Сразу скажу: не надо страдать по токенам и пытаться их любой ценой ужать. Это очень частая ловушка — сэкономить на бумаге и проиграть по факту.
Цифрам в отчётах верить нельзя. Расход зависит от кеша провайдера — холодный, горячий и вызов инструмента считаются по-разному. На каждый ход агента в контекст заново летит всё, что там накопилось: без кеша это горит, с кешем — нет. Поэтому «стало на 50% меньше» в статистике часто вообще не бьётся с реальным счётом.
«Сжатие токенов» — красивая иллюзия. Сейчас модно прикручивать инструменты, которые ужимают вывод терминала и обещают «−60–90% токенов». Пшемек Мрочек (mroczek.dev) это хорошо разобрал: эти проценты — не падение твоего счёта, а всего лишь доля сырого вывода консоли, которую вырезали. Самое дорогое они не трогают вообще: глубокие чтения файлов, контекст репозитория, системные промпты и токены рассуждения самой модели.
И есть скрытая опасность: агент не знает, что текст урезали. Вырезали важную строку из стектрейса ради пары токенов — и вы оба работаете вслепую. Причём молча, без ошибки: модели просто подсунули обрезок. Дальше она галлюцинирует, ломает сборку или ходит по кругу — и сжигает больше, чем «сэкономила».
Мерить надо не токены, а долю решённых задач. Минус 80% на промпте — это минус, если из-за потери контекста агент пошёл вразнос. Нужна компактность — бери нативные режимы инструментов (--json, структурный вывод), а не хрупкий сторонний парсинг.
А если реально упираешься в лимиты — переделывай процесс, а не дави токены:
- Посмотри, не перечитываются ли одни и те же файлы по десять раз. Обработай один раз, сожми в тезисы — и переиспользуй, а не скармливай сырьё на каждый ход.
- Залезь в свои
AGENTS.md / CLAUDE.md: там часто висит раздутый контекст, который едет в каждый запрос.
- Повторяющуюся рутину выноси в формализованные пайплайны или дешёвых воркеров. Большая модель думает, мелкие исполняют — так и по деньгам, и по результату лучше.
Короче: оптимизируй процесс и результат, а не цифру в дашборде. «−90% токенов» при «−30% сделанных задач» — это не оптимизация, это самообман.
Доброго дня! Мне помогает периодический чек второго пункта, его актуальность на данный момент, а не тот, что был 1-2 месяца назад