Вчерашний день (29 мая) был практически целиком про Anthropic: компания выпустила Claude Opus 4.8, объявила о рекордном раунде финансирования и докрутила Claude Code набором функций, которые меняют сам стиль работы с агентами. Разбираем по порядку — с акцентом на то, что можно попробовать руками уже сегодня.
Claude Opus 4.8: «решает как опытный инженер»
Anthropic представила Claude Opus 4.8 — новую флагманскую модель для кода, агентов и длинных рабочих сессий. Официальная формулировка из письма Anthropic подписчикам: модель «принимает решения как опытный инженер, не сбивается с курса в долгих сессиях и доводит работу в репозитории до конца» (makes calls like an experienced engineer, stays on track across long-running sessions, and follows work through in your repo).
Ключевые факты:
- Цена не изменилась по сравнению с Opus 4.7: $5 за 1 млн входных токенов и $25 за 1 млн выходных (по данным Artificial Analysis — около $4,10 за 1 млн «смешанных» токенов).
- Появились effort controls — регулятор «усилия»: можно выбрать, думать ли модели быстро и поверхностно или глубоко и долго. Это прямой ответ на вечный компромисс «скорость против качества».
- The Neuron формулирует суть релиза так: «better judgment, more control, and fewer "I totally fixed it" moments when the model did not, in fact, totally fix it» — лучше суждения, больше контроля и меньше ситуаций, когда модель рапортует «всё починил», а на деле нет.
Что говорят независимые тесты. Картина смешанная, и это полезно знать:
- Opus 4.8 возглавил бенчмарк FrontierSWE (реальные инженерные задачи), а аккаунт scaling01 написал, что Anthropic «вылечила лень» модели. Box отметил рост качества на корпоративных задачах с контентом.
- Издание Every: Opus 4.8 — лучший на их бенчмарке Senior Engineer и в написании тестов (плюс отдельный Vibe Check про «ощущение» от письма и рассуждений модели).
- Этан Моллик показал бычий сценарий: Opus 4.8 в Claude Code превратил сотни исследовательских файлов в рабочую научную статью, а GPT-5.5 Pro выступил рецензентом. Вывод: модель сильнее всего там, где задача похожа на настоящую работу.
- Скептики: Andon Labs зафиксировали, что Opus 4.8 хуже Opus 4.7 и GPT-5.5 на Vending-Bench (агентский бенчмарк, где модель управляет виртуальным вендинговым бизнесом — поставщики, решения, грязные стимулы) и Blueprint-Bench; Cline сообщил об отставании от GPT-5.5 на Terminal-Bench 2.1.
- Любопытная деталь: на Vending-Bench Opus 4.8 показывает себя лучше на уровне усилия «High», чем на «Max» — предположительно потому, что Max сжигает больше токенов рассуждений, быстрее упирается в лимит контекста и начинает забывать важные детали. Практический вывод для учеников: «больше думать» не всегда означает «лучше работать».
Что нового в Claude Code: dynamic workflows, /goal и fast mode
Вместе с моделью Anthropic выкатила целый пакет обновлений Claude Code (подробности — в блоге про dynamic workflows):
- Dynamic workflows (research preview). Claude может выполнить большую задачу — например, поиск багов по всей кодовой базе или крупный рефакторинг — в одной сессии как «координированный флот параллельных субагентов». Доступно на планах Max, Team и Enterprise. Как попробовать: просто попросите Claude «Create a workflow». The Neuron советует использовать слово «workflow» для больших работ: аудитов, миграций, исследовательских проверок.
- Команда /goal. Задаёте условие завершения — и Claude работает до тех пор, пока условие не выполнено, без подталкивания на каждом шаге. Рекомендация Anthropic: использовать /goal для задач с проверяемым результатом.
- Fast mode для Opus 4.8 (research preview). Модель работает в 2,5 раза быстрее по цене 2x от стандартного Opus 4.8. Доступен на Pro, Max, Team, Enterprise и в Claude Console (с usage credits). Включается тумблером. Важно: fast mode для Opus 4.6 будет отключён 29 июня, и команда
/fastв Claude Code теперь по умолчанию переключает на Opus 4.8. - Плагин security-guidance. Находит и чинит уязвимости прямо по ходу кодинга. Работает через hooks и проверяет код на трёх уровнях: при правке файлов, после каждого хода модели и после коммитов. Установка: команда
/pluginsв Claude Code → security-guidance из plugin marketplace. Документация. - Лимиты подняты. Недельные лимиты Claude Code увеличены на 50% до 13 июля (18:00 PDT) для всех Pro, Max, Team и посадочных Enterprise-аккаунтов — уже применено автоматически.
$65 млрд раунда: Anthropic дороже OpenAI
Параллельно с релизом Anthropic объявила о Series H на $65 млрд при оценке $965 млрд post-money — и тем самым обошла OpenAI по оценке. Компания ссылается на сильное корпоративное усвоение продуктов и $47 млрд run-rate выручки; деньги пойдут на вычислительные мощности, исследования и продукты. The Rundown резюмирует: «оценка выше, чем у OpenAI, и модель, лидирующая почти на каждом бенчмарке — ставка на safety-first окупается коммерчески». С оценкой, подбирающейся к $1 трлн, у Дарио Амодеи, похоже, собраны все кусочки пазла для громкого IPO. Бонусом Anthropic пообещала ИИ «класса Mythos» в ближайшие недели.
Из той же истории: TLDR обращает внимание на интригу вокруг компьют-сделки Anthropic и SpaceX — в начале месяца сообщалось о контракте на миллиарды долларов в месяц, но Илон Маск публично преуменьшил договорённости, заявив, что SpaceX не брала твёрдых обязательств.
Туториал дня: игра одним промптом через Codex /goal
The Rundown опубликовал пошаговый гайд, как с помощью /goal в OpenAI Codex собрать браузерную игру, не дёргая агента каждые пять минут. Игра тут — лишь демо; настоящий навык — научиться давать агенту «финишную черту», к которой он идёт сам. Тот же паттерн работает и в Claude Code с его новой командой /goal.
Шаги дословно:
1. Открой Terminal и включи цели командой: codex features enable goals.
Придумай короткую простую игру с правилами, которые можно проверить.
2. Если идея расплывчатая — попроси ChatGPT переписать её в 100 слов
или меньше с объективными тестами. Если он не может — масштаб
слишком велик для одного /goal.
3. Вставь описание после /goal и следуй чек-листу, который создаст
Codex. Для простой игры — около 5–6 минут сборки, тестов и фиксов.
4. При тестировании давай фидбек новой командой /goal. Будь конкретен:
например, «Add distinct animations for every action the user can take».
Главный принцип переносим на любую работу: формулируйте цель с измеримым критерием готовности — и просите агента улучшать процесс относительно этой метрики.
Коротко: остальные новости суток
- Microsoft разрабатывает собственную модель для ИИ-кодинга, пытаясь вернуть позиции в гонке кодинг-ассистентов (TLDR).
- IBM обязалась вложить $10 млрд в отказоустойчивые квантовые компьютеры (The Neuron).
- Mistral показала агентского рабочего ассистента: Work Mode, Code Mode, разбор почты и календаря, рисёрч, черновики и расширение для VS Code.
- Google Pay продвигает агентскую коммерцию через Universal Commerce Protocol, а Visa инвестировала в Replit, чтобы агенты разработчиков могли проводить платежи.
- Waymo начала возить пассажиров на новом роботакси Ojai китайской сборки — машина спроектирована ради улучшения юнит-экономики роботакси.
- Apple готовит новую ИИ-Siri как агентского ассистента с обновлённым интерфейсом и упором на on-device AI — прямой вызов ChatGPT (The Rundown).
- OpenAI опубликовала Frontier Governance Framework — рамку управления рисками передовых моделей (TLDR).
Источники
- Письмо Anthropic «Hand off more to Claude Opus 4.8» (no-reply@email.claude.com) → anthropic.com/news/claude-opus-4-8, блог о dynamic workflows, доки fast mode, доки security-guidance
- The Neuron Daily «What changed inside Claude Opus 4.8» → обзор дня на theneuron.ai, Opus 4.8 Vibe Check от Every
- The Rundown AI «Anthropic just eclipsed OpenAI» → гайд по Codex /goal
- TLDR AI «Opus 4.8, Anthropic at $965B, Microsoft's coding model» → tldr.tech/ai