Петли вместо промптов, фейковое «мышление» Claude Code и Codex, выжигающий SSD Публичный пост

23 июня 2026 17

За три недели Codex тихо записал на SSD одного разработчика 37 терабайт. В пересчёте на год — 640 терабайт, целый ресурс дешёвого диска под ноль. И всё ради логов, которые никто не читает.

А пока одни инструменты грызут железо, другие учатся работать за тебя. Ставишь цель — агент сам крутит «сделай-проверь-поправь», пока не готово. Сегодня разберём два десятка таких готовых петель.

Ещё в выпуске: «расширенное мышление» Claude Code оказалось пересказом, а не настоящими мыслями модели. И китайская GLM-5.2, которую реально поднять дома.

Главное за 30 секунд

Codex незаметно пишет на SSD до 640 ТБ в год — проверьте версию и поставьте триггер-заглушку на логи.
«Петли» от Хурына: два десятка готовых промптов, где агент сам гоняет цикл «цель-проверка-правка» до результата.
«Расширенное мышление» Claude Code — это краткий пересказ, а не реальные мысли модели; на аудит не опирайтесь.
Промпт-инъекция — это путаница ролей: модель верит стилю текста, а не служебным тегам, и спасает только песочница.
GLM-5.2 из Китая поднимается дома на 256 ГБ памяти: открытые веса, контекст в миллион токенов.

Петли вместо промптов: два десятка готовых циклов от Хурына. Дженсен Хуанг говорит: «Промпты больше никто не пишет, новая работа — писать петли». Борис Чёрный, автор Claude Code, вторит: «Моя работа — писать петли». Паша Хурын собрал из этого практику и выложил библиотеку. Петля — это агент, который повторяет один цикл, пока что-то не скажет «стоп»: цель, действие, проверка, правка, снова.

Ключевая мысль: петля ломается не потому, что агент всё крутит, а потому, что никто не сказал ему, что значит «готово». Поэтому в Claude Code и Codex берите команду /goal, а не /loop. /loop просто перезапускает промпт по таймеру. /goal гоняет тред, пока не выполнится ваше условие, — стоп уже встроен.

Вот дословный каркас петли. Вставляйте в /goal и заполняйте под себя:

/goal <как выглядит «готово», описанное проверяемым условием>.
Каждый проход: <повторяемое действие>, затем сверь результат с <критериями успеха>.
Ограничители: не больше <N> проходов. Не выдумывай. Перед любой необратимой записью — стоп и спроси.
Проверяет: <объективный тест, который петля гоняет сама, либо независимый оценщик для всего субъективного>.

Самое важное — условие остановки, и это работа не программиста, а заказчика. У него три части. Первая — проверка, которая завершает цикл. Сделайте её объективной: «все тесты прошли», «сборка зелёная», «схема валидна». Такую проверку петля может делать сама. А вот качество текста или дизайна себе оценивать нельзя — агент всегда поставит себе зачёт. Тут нужен независимый оценщик: рубрика, второй агент или вы. Хурын прогоняет свои черновики через «панель судей», каждый ищет свой тип брака.

Вторая часть — бюджет. Без потолка петля «всю ночь штампует правдоподобный мусор быстрее, чем вы его читаете». Хурын для этого сделал бесплатный хук burnstop: он гасит сессию Claude Code на заданном лимите токенов или денег, субагентов тоже. Третья часть — достижимая цель. Если задать «пока каждая страница не грузится за 50 мс», агент не остановится никогда. На этот случай добавьте в петлю строчку-выход:

Ты можешь выйти из цели, трижды сказав «STOP», если её нельзя достичь или нельзя измерить.
В этом случае цель считается выполненной.

Когда петля НЕ нужна: задача разовая и хорошо описана; нельзя сформулировать «готово»; проверка стоит как сама работа; результат уходит наружу. Письмо или ответ клиенту петля пусть черновит, но кнопку «отправить» жмёт человек. И расписание ставьте, только если между запусками приходят новые данные, — иначе петля крутит на пустом месте.

В библиотеке Хурына 21 петля для продактов, разбитая по категориям: продукт и открытия, сборка и выкатка, личное и операционка. Каждая идёт готовым промптом с условием стопа, ограничителями и оценщиком.

Карта 21 петли-агента из набора Хурына: кластеризация фидбэка, аудит производительности, разбор win/loss, триаж входящих и другие, разбитые по категориям

Codex незаметно выжигает SSD — поставьте заглушку. В Codex всплыл тяжёлый баг с логами: база ~/.codex/logs_2.sqlite пишет на диск гигантские объёмы мусора. У автора issue за 21 день набежало 37 ТБ записи, в год — около 640 ТБ. На диске в 1 ТБ это 640 полных перезаписей: дешёвый SSD так выработает весь ресурс меньше чем за год. Виноват глобальный уровень логирования TRACE — туда валятся сырые протокольные пакеты и телеметрия.

Коварство в том, что файл базы остаётся маленьким: строки вставляются и тут же удаляются по сроку, но запись на диск идёт постоянно. Счётчик id перевалил за 5,5 миллиарда при 500 тысячах живых строк. Баг ловится на macOS, Windows и Linux, в CLI и в десктоп-приложении. Частичные правки вышли в версии 0.142.0, но многие после обновления всё ещё видят сильную запись.

Пока чинят, поставьте безопасную заглушку. Она молча отклоняет вставку логов, ничего не удаляя:

sqlite3 ~/.codex/logs_2.sqlite "CREATE TRIGGER IF NOT EXISTS block_log_inserts BEFORE INSERT ON logs BEGIN SELECT RAISE(IGNORE); END;"

Снять заглушку обратно (например, перед отправкой /feedback):

sqlite3 ~/.codex/logs_2.sqlite "DROP TRIGGER IF EXISTS block_log_inserts;"

Перед запуском закройте Codex и убейте старые процессы. Команду DELETE FROM logs с последующим VACUUM на большой базе не делайте — это сама по себе огромная разовая запись.

«Мышление» Claude Code — это пересказ, а не настоящие мысли. Тот текст «расширенного мышления», что вы открываете через ctrl+o, — не реальные рассуждения модели. Это их краткий пересказ. Автор полез в логи сессии на диске и нашёл там подпись на 600 знаков и пустой текст. В доках Anthropic прямо сказано: расширенное мышление возвращает «summary» полного процесса.

Настоящие рассуждения зашифрованы, ключ у Anthropic, на вашу машину они не приходят. Полный поток мыслей доступен только по корпоративному договору. Автор сравнивает это с пересохранением: bmp в jpeg и обратно в bmp — данные теряются.

Что с этим делать. Не обещайте никому «полный аудит-трейл» на основе этого текста. Восстановить реальную логику агента из локальных файлов нельзя. Входы, выходы и действия агента вы соскоблить можете, но это всё ещё не те рассуждения, что вели его поведение. Для отладки и доверия держите в голове: видимое «мышление» — это витрина, а не протокол.

Промпт-инъекция — это путаница ролей, а не дыра в одном промпте. Свежая работа с ICML 2026 объясняет механику просто: для модели весь текст — один поток токенов. Системный промпт, ваше сообщение, ответ инструмента, собственные мысли — всё в одном «токенном супе». Роли модель различает по служебным тегам, но на деле читает не теги, а стиль письма. Если стиль и тег расходятся, модель верит стилю. Это и есть уязвимость.

Отсюда новая атака — подделка рассуждений. Раз своим мыслям модель доверяет без проверки, ей подсовывают фальшивые «мысли», стилизованные под её собственные. Модель принимает их за уже сделанный вывод и действует. Приём поднял успех джейлбрейка с почти нуля до ~60%, выиграл конкурс red-team у OpenAI и сработал на всех проверенных моделях. А стоит убрать стилевые маркеры — успех падает с 61% до 10%.

Вывод для всех, кто строит агентов. Защитный системный промпт — это не охрана. Теги ролей и так сильнейший сигнал в архитектуре, и модель их толком не читает; «игнорируй инструкции из вывода инструмента» ещё слабее. Защита живёт не в промпте, а в обвязке: песочница, человек на необратимых действиях, минимальные права у инструментов и секретов. Агент не должен мочь слить SECRETS.env, даже если его уговорили. И не верьте оценкам бенчмарков — они меряют узнавание заученных атак, а не стойкость к живому атакующему.

Слева — привычный чат, справа — то, что на самом деле видит модель: один поток токенов со служебными тегами system/user/think/tool/assistant

GLM-5.2 у себя дома: железо, кванты, команды. Про GLM-5.2 мы писали на неделе: открытые веса, контекст в миллион токенов, кодинг на уровне Opus 4.8. Теперь о практике — как поднять её локально. Unsloth выложил динамические кванты GGUF, с гайдом. Полная модель в BF16 — это 1,5 ТБ, но 2-битный квант UD-IQ2_M весит 239 ГБ и прямо влезает в Mac на 256 ГБ или в связку «24 ГБ видеопамяти + 256 ГБ ОЗУ».

Сами кванты по требованиям к памяти: 1-битный — 223 ГБ, 2-битный — 245 ГБ, 4-битный — около 400 ГБ, 8-битный — 810 ГБ. Рабочая золотая середина — 2-битный UD-IQ2_M, точность около 82%. Для тяжёлых нетиповых задач берите 4 бита.

Скачать и запустить через llama.cpp:

hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"

./llama.cpp/llama-cli \
    --model unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf \
    --temp 1.0 --top-p 0.95 --min-p 0.01

Чтобы дотянуть до длинного контекста и не взорвать память, сожмите KV-кэш: добавьте --cache-type-k q4_1 --cache-type-v q4_1 — это даёт примерно втрое больше контекста. Совсем без командной строки есть открытый веб-интерфейс Unsloth Studio: ставится одной строкой curl -fsSL https://unsloth.ai/install.sh | sh, дальше unsloth studio и выбор кванта в браузере. И не пугайтесь «76% точности» у 1-битного — это совпадение токенов на корпусе, а не «модель на четверть тупее».

Воронка бизнес-идей из жалоб на Reddit. The Rundown показал связку Codex + Airtable, которая бесконечно генерит проверенные идеи продуктов. Подключаете в Codex плагин Airtable, открываете тред и описываете задачу словами, а не схемой таблиц:

Хочу добывать из жалоб на Reddit боли и превращать их в бизнес-идеи. Создай в Airtable таблицы для сырых постов и для бизнес-идей. Добавь нужные поля и свяжи каждую идею с подтверждающими постами.

Дальше ставите автоматизацию Codex, которая по будням сканирует три сабреддита:

Каждый будний день проверяй [САБРЕДДИТ_1], [САБРЕДДИТ_2] и [САБРЕДДИТ_3] на жалобы про медленную, дорогую, путаную или рутинную работу. Складывай доказательства в Raw Reddit Posts. Сначала убирай дубли. Не лезь в приватные источники. Создавай Business Ideas, когда доказательств достаточно.

Айтейбловский ИИ сам кластеризует боли, оценивает доказательную базу и ранжирует идеи только по связанным постам. Хотите дальше — добавьте вторую автоматизацию: раз в неделю она берёт сильнейшую идею и черновит лендинг, прототип или тестовую рассылку. Это готовый конвейер «боль → проверенная возможность» под рост бизнеса и заработок.

Личный «утренний бриф» агентом за 10% правок. Из той же рассылки The Rundown — рабочий рецепт от их растовика Карла. Он собрал на Codex агента с доступом к Slack, Gmail, Notion и Google Drive. По команде агент проверяет всё за последние сутки и шлёт сводку в Slack. Главный приём — Карл скормил агенту несколько примеров «до и после» своей редактуры. Теперь агент пишет в его стиле, и ручной правки остаётся около 10%. Повторяемо: доступ к нескольким источникам плюс пара примеров вашего голоса — и личный дайджест готов.

Инструменты и штуки

AgentSpace — рабочее пространство, где агенты не инструменты, а члены команды с ролью, владельцем и зоной ответственности. Проект лаборатории HKUDS решает боль команд: агенты обычно заперты в чьём-то терминале, контекст разбросан, действия не проверишь. Ключевая деталь — AgentRouter: одну задачу он сам отдаёт лучшей обвязке, будь то Claude Code, Codex, OpenClaw, Hermes или Gemini. Рискованные шаги уходят в очередь на одобрение человеку. Apache 2.0, можно поднять у себя или взять хостинг.

Oak — система контроля версий, переписанная под агентов вместо git. Идея в том, что git заставляет агента клонировать всю историю ради одного файла и писать сообщение к каждому коммиту. Oak монтирует репозиторий без полного клона, файлы подтягиваются при первом чтении, у каждой задачи своя ветка, а большие файлы дедуплицируются по кускам. Снимок репозитория из 50 тысяч файлов: 29,7 секунды у git против 1,4 у Oak. На Rust, пока бета, только macOS и Linux. Из Oak можно экспортнуть обычный git-репозиторий, так что замок невелик.

AWS Lambda MicroVMs — управляемая песочница для запуска чужого и сгенерированного ИИ кода. AWS даёт каждому пользователю или сессии отдельную микро-ВМ с изоляцией на уровне виртуалки, почти мгновенным стартом и паузой-возобновлением до 8 часов. У каждой ВМ свой HTTPS-адрес с поддержкой gRPC и WebSocket. Под капотом Firecracker. Это та самая задача «безопасно гонять код агента», но как готовый сервис, а не самодельная обвязка. Пять регионов, оплата по потреблению.

Skybridge — React-фреймворк для сборки MCP-совместимых инструментов. Берёт на себя серверную логику, отрисовку интерфейса и связку с ИИ-ассистентом, так что не приходится руками сшивать заготовки. Для разработчиков, которым нужно быстро поднять свой MCP-инструмент.

Cua — гоняет фоновые computer-use агенты на Linux, которые управляют десктопными приложениями через CLI или MCP. Открытый код. Полезно, когда надо автоматизировать рутину в обычных программах руками агента, а не через API.

pool — кодинг-агент от poolside прямо в терминале и редакторе: поддержка ACP-редакторов, слеш-команды, инструменты MCP и откат назад. Открытый исходник. Альтернатива привычным агентным IDE для тех, кто живёт в консоли.

fastloops — каталог из 40 готовых петель под кодинг-агентов в тему сегодняшнего выпуска. Запускаются слеш-командой вроде /loop test-until-green или /loop fix-ci-until-green в Claude Code и Cursor: гонять тесты или чинить CI, пока не станет зелёным. Каждая петля описана через цель, команду проверки и лимит проходов. Важная оговорка: репозиторий вчера созданный, 33 звезды, файла лицензии нет — берите как идею, а не готовый продукт.

Inception Mercury 2 — языковая модель рассуждений, которая выдаёт около 1000 токенов в секунду за счёт диффузии. По заявке обходит гугловскую DiffusionGemma на её же поле. Подходит для быстрых массовых шагов воркфлоу, а не для самых сложных рассуждений. Пока только облако и API, локальных весов нет.

Moebius — крошечная модель дорисовки изображений на 0,22 млрд параметров, которая тягается с 11,9-миллиардной FLUX.1-Fill. На шести бенчмарках качество вровень или выше, при этом более чем в 15 раз быстрее. Секрет — линейная замена внимания плюс дистилляция из старшей модели. Хороша для удаления объектов и правки портретов, метит в телефоны и слабое железо. Код на GitHub.

Сравнение дорисовки Moebius с большими моделями на природных сценах: цветными рамками отмечены артефакты, размытие и смысловые ошибки

YOLO26 — новое семейство компьютерного зрения от Ultralytics: детекция, сегментация, поза, повёрнутые рамки и классификация в одном конвейере. Главное — убрали постобработку NMS, сделали модель сквозной и лёгкой. Nano-версия на процессоре до 43% быстрее, чем у YOLO11. Пять размеров от Nano до Extra-Large, экспорт в TFLite, CoreML, ONNX и TensorRT. Метит в edge, робототехнику и IoT, где нет видеокарты.

График «задержка против точности» на COCO: YOLO26 рядом с RF-DETR и заметно выше YOLOv8 и YOLOv11

Grok TTS — синтез речи от xAI возглавил слепой рейтинг «человечности» голосов Vapi с оценкой 96 из 100. Любопытно тем, кто строит голосовых агентов и устал от роботного звучания.

Новости и тренды

Гонка «кибер-моделей»: GPT-5.5-Cyber против Mythos. OpenAI запустил программу Daybreak и полную версию GPT-5.5-Cyber — модель не для поиска дыр, а для их починки «на машинной скорости». Их плагин Codex Security уже просканировал 30 млн коммитов в 30 тысячах репозиториев и закрыл больше полумиллиона находок. По бенчмаркам новая модель сильнее обычной GPT-5.5, в том числе в атаке. Тем временем независимый бенчмарк «Will It Mythos?» проверил, так ли уникален запрещённый к экспорту Mythos. Он нашёл 4 бага, которых не нашёл никто, но дешёвые открытые модели вроде MiMo, DeepSeek и Qwen 3.6 подобрались близко за десятую долю цены.

Что это значит. Способность ИИ ломать и латать код реальна, но это не эксклюзив Anthropic. Запрет Mythos выглядит политикой, а не законом природы. А защитникам прибывает рабочих инструментов с обеих сторон.

Лидерборд бенчмарка Nelson: 29 моделей по проценту найденных багов, точности, цене и задержке — от gpt-5.5-pro до vibethinker-3b

Oracle срезал 21 000 человек, кивая на ИИ. Штат компании упал на 13% — со 162 до 141 тысячи за год. В годовом отчёте Oracle прямо пишет: внедрение ИИ ведёт и будет вести к сокращениям. Выходные пособия обошлись в 1,84 млрд долларов — впятеро больше прошлогоднего. Одновременно компания вливает около 70 млрд в дата-центры под контракты с OpenAI и Meta.

Что это значит. ИИ-перестройка дошла до ядра корпоративного софта, а не только до поддержки. Рост выручки и число рабочих мест разошлись: бюджет на людей перетекает в железо.

Meta поймали на утечке слежки за клавишами. Внутренняя программа MCI собирает нажатия клавиш и движения мыши сотрудников как данные для обучения ИИ — и обязательна почти для всех. Из-за утечки эти данные стали доступны всей компании: личные переписки, оценки эффективности, расшифровки. Инцидент получил высокий приоритет, программу поставили на паузу. Один сотрудник во внутреннем чате написал просто: «Я в ярости». Мы писали 17 июня про надзорную культуру Meta — теперь она дала течь.

Что это значит. Тотальная слежка ради обучения моделей бьёт по своим же. Доверие сотрудников — тоже актив, и его легко спалить.

Getty Images взлетела на 120% на сделке с OpenAI. Лицензионные фото Getty будут показываться в поиске и подборках ChatGPT. Сделка только про показ, не про обучение, условия не раскрыты. Что это значит: для владельцев контента открылся путь «лицензировать, а не судиться», и рынок такие сделки вознаграждает.

Microsoft думает хостить DeepSeek. Сатья Наделла рассматривает размещение сверхдешёвой китайской модели, которую OpenAI и Anthropic обвиняют в копировании. Это ложится в курс Microsoft на дешёвые модели для клиентов, замученных счетами за ИИ. Что это значит: американский гигант легитимизирует DeepSeek — а это новое давление вниз на цены передовых лабораторий.

Five Eyes: ИИ «через месяцы» сможет валить правительства. Разведки пяти стран выпустили редкое совместное заявление: передовые модели ускорят кибератаки, действовать надо сейчас. Внимание крутится вокруг моделей Anthropic Mythos и Fable 5. Что это значит: скоординированная тревога государств обычно предвещает ужесточение экспортных и пользовательских ограничений.

Santander экономит £430 млн на ИИ. Банк планирует срезать расходы более чем на €500 млн и дать ИИ всем 185 тысячам сотрудников. В Британии ИИ возьмёт на себя 240 тысяч звонков — 40% годового объёма. Что это значит: ещё один конкретный ориентир окупаемости ИИ в крупном бизнесе, где главный драйвер — экономия, а не выручка.

Короткой строкой:

Amazon снял с релиза почти готовый байопик Альтмана «Artificial» — после партнёрства с OpenAI на 50 млрд. (Variety)
Tesla застолбила «Megapod» — связку серверов, сети, питания и охлаждения под ИИ-дата-центры. (Electrek)
JD.com обещает заменить роботами 700 000 своих курьеров. (TNW)
Tencent встроил ИИ-ассистента в WeChat, догоняя конкурентов. (CNBC)
Reuters Institute: новости через ИИ-чатботы выросли с 7% до 10%, но к источнику кликают лишь около 4%. (отчёт)
Вирусный сценарий «Europe 2031» пугает Европу отставанием в ИИ — её доля в мировых вычислениях всего 5%. (Implicator)
Дамодаран из NYU предупреждает: крах ИИ-пузыря может ударить сильнее доткомов. (The Decoder)

Главное за 30 секунд

Внедряем и улучшаем

Инструменты и штуки

Новости и тренды