Claude Dynamic Workflows, агентная инженерия и IPO Anthropic Публичный пост

8 июня 2026 138

Главная тема дня — как ИИ-агенты перестают быть «болтливым ассистентом рядом» и превращаются в управляемую производственную линию. Anthropic встроила в Claude Code динамические воркфлоу: по одному ключевому слову Claude сам пишет программу-оркестратор и запускает флот субагентов.

Параллельно бывший принципал-инженер Meta показал, как шипит до 40 pull request'ов в день, почти не читая код. А сама Anthropic подала заявку на IPO и в тот же день призвала к глобальной паузе в разработке ИИ. Разбираем по порядку — плюс цифры о «сломанной» памяти ChatGPT, внутренний AI-плейбук AT&T, свежие инструменты и советы.

Claude Dynamic Workflows: Claude сам пишет оркестратор по слову `ultracode`

Самый практичный сюжет дня для всех, кто работает в Claude Code. Anthropic зашипила «динамические воркфлоу» — и это меняет то, как Claude управляет субагентами.

Определение простыми словами: динамический воркфлоу — это короткая JavaScript-программа, которую Claude пишет «на лету», чтобы скоординировать субагентов. Дословно из разбора: «A dynamic workflow is a short JavaScript program Claude writes on the fly to coordinate subagents. You trigger it with the ultracode keyword, or by asking Claude to use a workflow.»

Запускается прямо в Claude Code: пишете задачу и добавляете ключевое слово ultracode (или просто просите «use a workflow»). Claude читает задачу, сам пишет программу-оркестратор, порождает агентов и сводит их результаты — тоже кодом.

Ключевая идея, которая всё объясняет: оркестрация (порядок шагов, маршрутизация, фильтрация, условие остановки) выносится из модели в обычный код. «None of it calls a model, so the routing is free. The agents still cost tokens; the glue between them doesn't.» Агенты тратят токены, «клей» между ними — нет.

Цифра, которая это доказывает: в реальном прогоне «113 agents spent 1.95M tokens. The JavaScript that coordinated them spent zero model tokens.» Суждения делает модель, координацию — код.

Схема: что такое динамический воркфлоу Claude — агенты делают работу, а координирующий их код тратит ноль токенов модели (туториал Product Compass)

Эта структура в 2026-м получила устойчивое имя — harness (каркас, «упряжь»): модель отвечает за суждение, всё остальное — детерминированный код вокруг неё. Что это даёт: одинаковый порядок выполнения каждый раз, изоляцию контекста (каждый агент получает свежую ограниченную задачу), отсутствие «налога токенами» на оркестрацию и возможность гонять рутинные стадии на более дешёвой модели.

Зачем это нужно — harness лечит три болезни автономных агентов. Первая, «agentic laziness»: попросите Claude проверить 50 пунктов — он проверит 35 и уверенно объявит, что закончил. Воркфлоу держит все 50 в цикле for, пока массив не опустеет.

Вторая, «self-preferential bias»: модель щедро оценивает собственную работу. Воркфлоу делает судью отдельным агентом — с отдельным контекстом, иногда на другой модели, — и требует большинства голосов скептиков. Третья, «goal drift»: к 80-му ходу ограничение «не трогай авторизацию» может «испариться». В воркфлоу цель живёт в скрипте, вне дрейфующей памяти модели.

Шесть паттернов, которые стоит знать: classify-and-act (один агент определяет тип задачи, код маршрутизирует), fan-out-and-synthesize (по агенту на кусок параллельно, потом слияние в коде), adversarial verification (отдельные агенты проверяют вывод по рубрике), generate-and-filter (много кандидатов → фильтр и дедуп), tournament (N агентов решают по-разному, судьи выбирают победителя) и loop-until-done (порождать агентов, пока не выполнено условие остановки).

Развёрнутый пример из гайда — цикл продуктового дискавери на 100 синтетических интервью. Шесть стадий, где вывод стадии N задаёт стадию N+1.

По шагам: извлечение (по дешёвому агенту на интервью), кластеризация (модель сводит синонимы — «622 raw opportunities» свелись к «11 needs»), скоринг (код считает frequency × importance × (5 − satisfaction), без модели), генерация и триаж идей по ROI, сборка топ-3 кликабельных HTML-прототипов скиллом frontend-design и финальная проверка с перезапуском только упавших стадий.

Обзорная схема прогона: цикл продуктового дискавери на 100 интервью, шесть стадий harness (туториал Product Compass)

Итог прогона: «113 agents spent 1.95M tokens in 12.5 min. 3/3 prototypes built and verified.» Важная честная оговорка: дословный код harness, готовый SKILL.md и команда планирования /goal с бюджетом остались в платной части материала — в выпуск они не попали, поэтому здесь мы даём концепцию, паттерны и логику, а не копипаст-конфиг.

Зачем это ученикам академии: динамические воркфлоу — следующий шаг после простых субагентов. Правило выбора простое: субагенты — когда задача это один раунд параллельных суждений; динамический воркфлоу — когда «stage N's output determines stage N+1: route, score, filter, loop, retry, generate, verify, build». Подробный разбор: productcompass.pm.

Агентная инженерия: как шипить 40 PR в день и почти не читать код

Близкий по духу сюжет — большое интервью с Кун Ченом, экс-L8 принципал-инженером Meta. Он почти не ревьюит код вручную и при этом выпускает «up to 40 PRs a day», запуская по 20–30 агентов параллельно. Себя он описывает как менеджера всегда включённой инженерной команды.

Рабочий цикл — те же три фазы, что и выше, но с упором на роль человека. Plan: «Building clear plans is now the most important phase.» Implement: «Coding is now handled almost entirely by agents.» Validate: «Agents check the work first and only escalate to Kun if needed.»

Диаграмма агентной инженерии: большую часть времени тратишь на планирование и валидацию, плюс нужна система управления несколькими агентами (подкаст Peter Yang с Kun Chen)

Главный практический тезис — про план. «Plan quality determines how long agents run on their own. A one-line prompt might get the agent to work for a few minutes while a detailed plan can keep it working for hours.» Однострочный промпт = пара минут автономной работы; детальный план держит агента в деле часами.

Кун собрал три бесплатных open-source инструмента под этот воркфлоу: Lavish (визуальное планирование в HTML — он считает, что HTML удобнее markdown для планов), Treehouse (запуск параллельных агентов) и No Mistakes (AI-ревью кода, ловит ошибки модели до продакшна). Полный 60-минутный разбор с демо — в эпизоде подкаста (YouTube/Spotify/Apple).

ChatGPT раскрыл, что его память ошибалась чаще, чем в половине случаев

Мы писали 6 июня о том, что OpenAI учит ChatGPT «видеть сны» и перестроила память. Теперь появились конкретные цифры — и они довольно откровенные.

OpenAI признала: у старой памяти (запущена в феврале 2024) точность фактического вспоминания во внутренних тестах была всего 41,5% — то есть больше чем в половине ситуаций, зависящих от памяти, ChatGPT ошибался. «Confidently. Without telling you.»

Фикс называется Dreaming V3 — фоновый процесс, который сам синтезирует историю ваших разговоров без команд. Результаты по внутренним тестам: factual recall вырос с 41,5% до 82,8%, следование вашим привычкам (preference adherence) — с 55,3% до 71,3%, вычислительные затраты упали в 5 раз (поэтому функцию открывают и бесплатным пользователям), а объём памяти для Plus и Pro удвоен.

Включается так: профиль → Settings → Personalization → Memory → Memory Summary. Раскатывается на Plus и Pro в США, бесплатным — через несколько недель. Полезный нюанс осторожности: ранее в мае OpenAI добавила подключение банковских счетов для Pro, и связка «память + финансовые данные» делает ассистента куда менее похожим на простой чат-бот — стоит трезво решать, что именно вы ему доверяете.

Anthropic: заявка на IPO и призыв к глобальной паузе в один день

Создатель Claude подал заявку на крупное IPO — это станет одним из крупнейших размещений в ИИ и обострит конкуренцию с OpenAI и Google. Деталь для контекста индустрии: рынок ждёт, что листинг переоценит весь сегмент.

Любопытная вилка: в тот же день Anthropic призвала к глобальной паузе во frontier-разработке, предупредив, что модели приближаются к способности улучшать себя без надзора человека. Оговорка самой компании: достоверная пауза потребовала бы одновременной остановки США и Китая при верифицируемых условиях — а как это сделать, пока никто не придумал. Подробнее.

AT&T: внутренний AI-плейбук телекома и его «дата-крепость»

Отличный кейс для тех, кто думает, как встроить ИИ в большую организацию. CEO AT&T Джон Станки в марте заявил о «approaching nearly a 40% improvement in efficiency and effectiveness» в колл-центрах, обслуживании и написании кода. За цифрой — системная архитектура.

Историческое преимущество компании — данные. Bell Labs (ныне AT&T Labs) основана в 1925-м; именно там изобрели SVM, AdaBoost и свёрточные сети, а Ян Лекун обучил первую практичную нейросеть распознавать почтовые индексы (позже — премия Тьюринга). Десятилетия записей звонков, сбоев и сетевых паттернов — это AI-moat, который «no competitor, new or old, can replicate».

Сеть как ИИ-приложение: система Geo Modeler запускает real-time цифрового двойника всей мобильной сети США, используя ray tracing (та же техника, что рендерит свет в играх), чтобы симулировать прохождение сигнала сквозь здания, рельеф и погоду. При падении вышки она за секунды решает, как перенастроить соседние. Поверх неё — Network Foundation Model для «засыпания» недозагруженных вышек и детекции аномалий до отказа.

Цитата CTO Джереми Легга, важная для понимания тренда: «We've loaded every trouble ticket in the company into our generative and agentic AI frameworks. It now recommends what the fixes are and can write the code to do the fix.» Человек остаётся в контуре, но система читает тикет, предлагает решение и пишет черновик фикса заранее.

Единая платформа Ask AT&T (на Azure, запущена в июне 2023) масштабирована на 100 000+ сотрудников и генерирует в среднем 27 млрд токенов в день. Хитрость экономии: вместо дорогих frontier-моделей AT&T дообучает маленькие open-source модели на 4–7 млрд параметров на своих данных, а оркестратор направляет задачу к нужной — это снижает стоимость моделей до 90%.

Результаты в операциях: мошенничество с iPhone (проблема ~$1 млрд в год) урезано более чем на 80%; ActiveArmor блокирует 2,5 млрд robocall в месяц; в customer care дообученные с H2O малые модели классифицируют обращения в 80+ категорий за 35% стоимости больших, экономя ~$2 млн в год; в полевых работах — сокращение времени разрешения обращений на 33%.

Три урока для руководителей, которые сформулировала редакция кейса: проведите аудит данных, которые у вас уже есть, прежде чем покупать новое; одна управляемая платформа масштабируется быстрее десятка разрозненных инструментов; подбирайте размер модели под задачу. Полный разбор.

Туториалы и промпты

Видео словами (и своим лицом) в Gemini. Туториал недели — про Gemini Omni, модель генерации видео прямо внутри приложения Gemini, без отдельного редактора. Заходите на gemini.google.com → иконка Videos в сайдбаре → описываете сцену → выбираете формат → Generate. Правки — новым промптом; чтобы добавить себя, через + → Avatar сканируете QR-код телефоном и ссылаетесь на себя как @me. Для мультисценовых проектов — рабочее пространство Flow (flow.google.com).

Базовый шаблон промпта (дословно):

Create a [landscape/vertical] video of [describe your scene in detail].
Camera style: [cinematic/handheld/drone shot].
Lighting: [golden hour/nighttime/overcast].
Mood: [energetic/calm/dramatic].

Инструменты дня

Rask.ai (rask.ai) — переводит и дублирует видео на 130+ языков ИИ-голосами, которые держат оригинальный тон. Полезно тем, кто хочет вывести один ролик на глобальную аудиторию без студии озвучки. Есть бесплатный триал.

xAI Imagine API (x.ai/api/imagine) — генерация и редактирование картинок и видео через image-модель Grok: text-to-video, image-to-video, рестайлинг, вывод 2K. Для разработчиков, кто встраивает генерацию медиа в свои приложения. Цена не указана.

Replicas V2 (анонс) — команда coding-агентов, которые автоматически триггерятся из Slack, Sentry, Linear, GitHub или по cron, закрывают тикет и присылают скриншот результата. Для dev-команд, которым нужно «чинить баги, пока спишь». Цена не указана.

TripoSplat (на fal) (fal.ai) — превращает одно фото в качественный 3D-ассет менее чем за 5 секунд, с регулируемой детализацией для игр, печати и дизайна. Цена зависит от тира.

Советы и приёмы

Качество плана = время автономной работы агента. Главный вывод из практики Куна Чена: короткий промпт держит агента занятым минуты, детальный план — часы. Если хотите делегировать больше, вкладывайтесь в план, а не в подсказки по ходу. Планирование теперь самая важная, а не вспомогательная фаза.

Выносите оркестрацию из модели в код. Принцип harness/«orchestration over autonomy»: пусть модель принимает решения, а порядок шагов, маршрутизацию и условие остановки держит обычный код. Это убирает три типичных провала автономных агентов — лень («проверил 35 из 50»), щедрую самооценку и дрейф от исходной цели, — и при этом не стоит лишних токенов.

Подбирайте размер модели под задачу. Кейс AT&T показывает: дообученные малые open-source модели (4–7 млрд параметров) на доменных данных дают качество дорогих больших моделей за долю цены — экономия до 90%. Не всякую задачу нужно отдавать самой мощной модели; ограниченные повторяющиеся стадии дешевле и точнее гонять на маленькой.

Коротко: остальные новости суток

CNN судится с Perplexity. Медиагигант обвиняет Perplexity в использовании своего контента без разрешения для ИИ-сводок — ещё один фронт юридической борьбы вокруг данных для обучения и агрегации новостей. Источник.

Трамп требует федеральной проверки ИИ-моделей. Звучит призыв к обязательному государственному предпросмотру продвинутых систем перед выпуском — новое политическое давление в дебатах об управлении ИИ. Источник.

Meta остановила кастомный AI-чип с Samsung. Вслед за похожим шагом OpenAI, Meta приостановила разработку собственного чипа в подразделении Samsung System LSI; завершённый контракт оценивался в миллиарды. Источник.

Gemini Avatar раскатили для платных подписчиков. Функция Google позволяет сделать говорящий и движущийся цифровой клон себя из короткого видеоскана — теперь доступна широко на платных тарифах. Источник.

Anthropic Opus 4.8. В обзорах недели мелькнул релиз новой версии флагманской модели Anthropic — деталей пока немного, фиксируем сам факт обновления линейки Opus.

DeepSeek снизил цены на модели на 75%. Лаборатория продолжает давить ценой — резкое удешевление доступа к её моделям усиливает конкуренцию в сегменте дешёвого инференса.

Microsoft опубликовала «рецепт» обучения MAI Thinking-1. Компания выложила paper о тренировке своей reasoning-модели — материал заметили в ИИ-сообществе как редкий открытый разбор методики.

Источники

The Neuron Daily — ChatGPT memory, Anthropic pause, инструменты, Gemini Omni (выпуск)
Product Compass (Paweł Huryn) — Claude Dynamic Workflows for PMs (выпуск)
Peter Yang / Behind the Craft — Agentic Engineering with Kun Chen
NeatPrompts / The AI Report — AT&T's internal AI playbook (выпуск)
The AI Report — Anthropic IPO, CNN vs Perplexity, Trump AI review (выпуск)