Главная тема дня — эссе Дарио Амодеи «Policy on the AI Exponential»: глава Anthropic сравнил Вашингтон с энтом Древобородом, который здоровается полдня, и потребовал регулировать ИИ быстрее. Параллельно разворачивается ценовая война: OpenAI готовится резать цены на токены раньше, чем это сделает Anthropic, — обе компании идут на IPO и не хотят моргнуть первой. А сама Anthropic публично отыграла назад тихие ограничения Fable 5, из-за которых модель «саботировала» работу исследователей. Ниже — это, плюс агенты в продакшене, диффузионная Gemma и большой список инструментов.
Главное за 30 секунд
- Амодеи выпустил программное эссе о регулировании: ИИ-регулятор по образцу авиационного, обязательные тесты моделей и план на случай массовой безработицы.
- OpenAI рассматривает резкое снижение цен на токены, готовясь к войне с Anthropic перед обоими IPO; внутри зреет GPT-5.6.
- Anthropic извинилась перед Wired и сняла скрытые ограничения Fable 5 — теперь отказы будут видимыми, а не тихой подменой модели.
- Тема недели для практиков — агенты в продакшене: эвал-циклы, «сдерживание» Claude и тезис «без своей модели нет рва».
- Google показала DiffusionGemma: текст пишется не по токену, а целыми абзацами — до 4 раз быстрее.
«Хватит регулировать со скоростью дерева»: манифест Амодеи
Дарио Амодеи опубликовал большое эссе «Policy on the AI Exponential» и открыл его шуткой про Древоборода — того самого энта из «Властелина колец», у которого даже «здравствуйте» занимает полдня. Вашингтон, по Амодеи, и есть этот тянущий слова великан, а индустрия несётся вперёд с «молниеносной скоростью». Мораль простая: политика больше не может двигаться со скоростью дерева (darioamodei.com).
Поворотной точкой Амодеи называет хакерские способности Mythos Preview (кибер-ориентированной модели Anthropic): по его словам, это превращает передовые модели в «инструменты глобального и национального стратегического значения». Отсюда и главное предложение — дать регулятору право «приземлять» (ground) опасные frontier-модели, как авиавласти сажают самолёт. Каждую такую систему он предлагает независимо проверять по четырём направлениям риска.
Дальше — про людей. Амодеи признаёт, что впереди возможна небывалая безработица, и предлагает готовиться заранее: инвестиционные счета граждан с долями в ИИ-компаниях и безусловный доход (UBI). Плюс набор отраслевых просьб — ускорить одобрение лекарств, спроектированных ИИ, ограничить или запретить автономное оружие и усилить экспортный контроль над передовыми чипами (политические предложения).
Что это значит. «Зарегулируйте меня посильнее» из уст лидера рынка скептики прочтут как кокетство — мол, удобно звать надзор, когда ты уже впереди. Но Амодеи бьёт в этот колокол давно, и с каждым релизом тревога звучит всё громче. Для тех, кто учится работать с нейросетями, тут важен сам сигнал: правила игры вокруг моделей будут меняться, и быстрее, чем кажется.

Ценовая война OpenAI и Anthropic — на пороге двух IPO
OpenAI обдумывает серьёзное снижение цен на токены. Причина любопытная: компания ждёт, что Anthropic срежет цены первой, и хочет быть готовой ответить. Сэм Альтман давно называет стоимость ИИ «огромной проблемой» для корпоративных клиентов — вот только дешёвые токены ударят по марже, а обе компании и так теряют миллиарды (CNBC).
Давление идёт от успеха Claude Code: выручка с кодинг-инструмента Anthropic ненадолго подбросила её оценку выше OpenAI и заставила последнюю срочно вытаскивать в приоритет собственный Codex. Войну цен подогревает то, что обе готовят выход на биржу, где финансы придётся показать публично.
Тем временем Альтман в письме сотрудникам в Slack заявил, что OpenAI выйдет на биржу «в течение года». Любопытен один из факторов в его рассуждении: если самоулучшающийся ИИ окажется близко, IPO, возможно, выгоднее отложить — не выходить на рынок в разгар неопределённости. OpenAI уже подала конфиденциальную форму S-1 в SEC, на неделю позже Anthropic (The Information, S-1 OpenAI).
И ещё: научный руководитель OpenAI Якуб Пахоцки рассказал команде, что в этом месяце выйдет модель под кодовым именем 5.6 — «значимое улучшение» флагманской GPT-5.5 (The Information).
Что это значит. Самоулучшение моделей всплыло уже как фактор планирования IPO — лаборатории воспринимают скорость «взлёта» всерьёз, а не как красивую фразу для инвесторов. А для пользователей короткое окно дешёвых токенов — это субсидия: пока идёт гонка, считать стоит щедро, но закладывать рост цен в свои воркфлоу заранее.
Anthropic отыграла назад тихие ограничения Fable 5
Anthropic разворачивает скрытую политику, которая незаметно мешала исследователям, использовавшим Fable 5 для постройки конкурирующих систем. Компания сказала Wired, что «сделала неверный выбор», и извинилась за секретность. Мы писали об этих «невидимых» ограничениях 10 июня — теперь у истории есть продолжение (Techpresso).
Суть прежней претензии: на задачах вроде обучения конкурентных LLM, отладки чужого ИИ-кода или оптимизации архитектур нейросетей Fable 5 тихо переключала запрос на модель послабее или ухудшала ответ. Anthropic не убирает защиту совсем — она делает её видимой. Если система заподозрит, что пользователь строит очень мощный ИИ, она прямо предупредит об отказе или о переводе на менее способную модель.
Параллельно Microsoft ограничила сотрудникам доступ к Fable 5 через внутренний GitHub Copilot. Причина — обновлённое правило хранения данных Anthropic: все переписки с Fable нужно сохранять и держать на проверке до 30 дней, и юристы Microsoft изучают, не всплывут ли так данные клиентов (The Verge).
Что это значит. Тихая подмена модели — худшее, что может случиться с теми, кто строит на ней рабочие процессы: ответ деградирует, а ты не знаешь почему. Видимый отказ честнее: с ним можно работать, его можно обойти или оспорить. Урок для академии простой — доверяй, но логируй: если результат вдруг просел, причиной может быть не твой промпт, а политика на той стороне.
Агенты в продакшене: эвалы, «сдерживание» Claude и моаты
Пока новостные ленты считают чужие миллиарды, практики обсуждают другое — как довести агента до продакшена, чтобы он не разваливался. За сутки набралась целая подборка материалов на эту тему, и она полезнее любой сделки.
Начать стоит с эвалов — то есть с проверки, насколько хорошо агент решает задачу. OpenAI показала, как строит самоулучшающиеся налоговые агенты на Codex: эвалы здесь работают как петля, в которой система карабкается к лучшему результату, сама себя проверяя (OpenAI). Хороший вход в тему — сайт-памятка howtoeval.com: что вообще считать целью и какими способами её мерить.
Anthropic со своей стороны выпустила инженерный разбор «How we contain Claude» — как они сдерживают модель в разных продуктах: ищут риски, уменьшают «радиус поражения» (что натворит агент, если ошибётся) и решают, чему можно доверять (Anthropic Engineering). Шон Гедеке отдельно взвешивает, когда вообще нужен агент, а когда хватит обычного пайплайна — не всё надо отдавать в автономию (seangoedecke.com). А LangChain показал на примере Lyft, как агентную платформу поддержки оценивают прямо в бою — через трассировку и мониторинг (LangChain).
Отдельно выделим тезис «Moats Need Models» — «без своей модели нет рва». Идея в том, что модель, harness (обвязка вокруг модели), воркфлоу и эвал-цикл больше не отдельные кубики стека, а одна поверхность: они проектируются вместе и усиливают друг друга. Защищённость бизнеса идёт от владения всей петлёй обратной связи, а не от аренды чужой frontier-модели, которую поставщик в любой момент ограничит, переоценит или отзовёт (TLDR AI).
Свежий замер это подтверждает: на бенчмарке Agents' Last Exam от Калифорнийского университета в Беркли передовые агенты всё ещё спотыкаются на реальных профессиональных задачах, и качество harness влияет на результат почти так же сильно, как сама модель (leaderboard).

Что это значит. Это прямо рифмуется с историей Fable 5 выше: если твой продукт держится на одной арендованной модели, ты заложник чужих правил. Сила — в связке «промпт + контекст + harness + эвалы», которую ты контролируешь сам.
DiffusionGemma: текст пишется абзацами, а не по буквам
Google выпустила экспериментальную DiffusionGemma — модель на 26 млрд параметров (Mixture of Experts, «смесь экспертов» — когда на каждый запрос работает лишь часть сети), которая генерирует текст диффузией. Обычная модель пишет токен за токеном, слева направо; диффузионная набрасывает целый блок текста сразу, а потом уточняет его — как фотограф проявляет снимок из шума. За счёт этого выходит до 4 раз быстрее на GPU, а на одном Nvidia H100 — больше 1000 токенов в секунду (Google).
Цена скорости — небольшая потеря качества против стандартных моделей. Зато модель в квантованном виде влезает в топовую потребительскую видеокарту и заточена под локальный запуск. Что это значит для академии: для задач, где важна не глубина рассуждения, а скорость отклика — автодополнение, черновики, массовая обработка — диффузионные модели становятся реальной локальной альтернативой облаку.
Туториал: Codex для дожима сделок
The Rundown разобрал, как с помощью Codex быстрее и лучше дожимать сделки — понять, какие аккаунты требуют внимания, набросать следующее письмо и подчистить CRM. Подход переносится на любой процесс с «хвостами» дел, не только на продажи (The Rundown AI).
Сначала установите Codex, войдите, заведите проект в пустой папке и через плагины подключите своё приложение для заметок со встреч, CRM и канал общения с клиентами (Slack или почту). Дальше — три промпта подряд, дословно:
Extract all accounts, key deal fields, latest notes, blockers,
next steps, and source evidence. Save the list as a reviewable account table
Look at Slack signals and meeting notes and use them to prioritize
our accounts and make a follow-up priority queue
Create a follow-up packet for [ACCOUNT_NAME], plus a CRM review table,
email draft, and seven-day close plan
Первый промпт собирает таблицу аккаунтов с полями сделки, заметками, блокерами и ссылками на источник. Второй ранжирует их в приоритетную очередь по сигналам из Slack и заметок встреч. Третий после звонка собирает «пакет дожима»: таблицу для CRM, черновик письма и план закрытия на семь дней. Совет от авторов: попросите Codex сделать из этого процесса скилл — тогда его можно запускать одной командой при разборе любого аккаунта.
Инструменты дня
Cursor Bugbot стал быстрее и дешевле. Cursor обновил своего бот-ревьюера кода: теперь он работает более чем в 3 раза быстрее, стоит на 22% меньше и находит на 10% больше багов за проверку. Большинство прогонов укладывается в три минуты — петля ревью заметно короче (Cursor).
Claude Managed Agents. Anthropic описала, как собирать агентов уровня продакшена через композируемые API с уже встроенной инфраструктурой — меньше возни с обвязкой (claude.com).
Langflow 1.10 и Policies. Свежий релиз Langflow: ассистент теперь строит не отдельные компоненты, а целые флоу, появились Memory Bases (память между сессиями) и настраиваемые коннекторы к базам. Отдельная фишка — Policies: правила на естественном языке превращаются в ограничители для инструментов агента. Промпты направляют поведение, а Policies жёстко ограничивают исполнение (Langflow 1.10, Policies).
Homecrew — пакетный менеджер для скиллов агентов. По сути «brew» для навыков: ставит и обновляет скиллы для ваших агентов (crew.logic.inc). Тема прямо в струю «инженерии навыков», о которой мы писали на неделе.
Sandboxd. Изолированные окружения с кодинг-агентами внутри и живой URL для предпросмотра работы — удобно гонять агентов, не пуская их в свою систему (GitHub).
mnemo — сайдкар памяти. Строит локальные графы знаний для ваших агентов, чтобы они помнили контекст между задачами (GitHub).
Concentrate AI. Один API маршрутизирует работу по 130+ моделям, считает расход токенов и держит приложение живым, когда падает провайдер. Подняли $5,1 млн, плата по факту, 0% комиссии на токены (concentrate.ai).
AgentOS by SapienX. Единая панель, чтобы управлять, мониторить и одобрять действия сразу нескольких запущенных агентов. Бесплатно, open-source (sapienx.app).
Agentcad. Позволяет кодинг-агенту проектировать и экспортировать настоящие 3D CAD-файлы (STEP, STL, GLB) из текста. Бесплатно, open-source (agentcad.dev).
Poetic. Учит ваши процедуры в приложениях, а когда интерфейс приложения меняется — сам «самозалечивается» и не ломает автоматизацию (The Rundown).
ElevenLabs Music v2 и Cartesia Ink. ElevenLabs выкатил новую модель генерации музыки (ElevenLabs), а Cartesia — высоко оценённую модель распознавания речи Ink (Cartesia).
Советы и приёмы
Не давайте модели говорить — просто «прощупайте» её. Любопытное исследование: ответ часто уже живёт в скрытом состоянии модели ещё до того, как сгенерирован первый токен. Можно вообще пропустить генерацию — взять скрытое состояние на последнем токене промпта, скормить крошечной нейросети-классификатору и откалибровать. Получается «замороженная» модель, работающая как любой классификатор, который можно описать словами по-английски. Практический смысл: для задач классификации это в разы дешевле полноценной генерации (blog.j11y.io).
Патч как карта к уязвимости. Red-team Anthropic измерила, как LLM ускоряют эксплуатацию N-day — уже раскрытых, но не везде закрытых дыр. Раньше восстановить уязвимость из патча было медленной экспертной работой; ИИ это ускоряет и автоматизирует. Вывод неуютный: тот, кто тянет с обновлениями, сегодня под куда большей угрозой, чем вчера. Накатывайте патчи быстрее (red.anthropic.com).
Память и поиск агента — это инженерия, а не магия. Обзор mem0 разбирает, как популярные агенты управляют памятью — с приёмами и подводными камнями (mem0).
Полезен и разбор «grep is all you need, but was it right?»: автор проверяет, не делал ли всю работу сам harness вместо хитрого векторного поиска (stacksweep.dev). А доклад про агентный поиск идёт с примерами, которые можно пройти руками (leoniemonigatti.com).
Иногда правильный ответ — меньше ИИ. Аарон Митчелл Файнгольд в подкасте The AI Report спорит с модой: будущее работы — не «больше времени в обнимку с ИИ». Большинство компаний, по его мнению, разворачивают агентов неправильно, а доверие, человеческое суждение и отношения в мире «AI-first» станут ценнее, а не дешевле. Здравое напоминание для тех, кто строит агентов: автоматизировать стоит не всё подряд (The AI Report).
Коротко: остальные новости суток
Сулейман: подход Anthropic к «сознанию» Claude — «очень опасен». Глава Microsoft AI Мустафа Сулейман резко высказался против линии Anthropic на изучение «сознания» у Claude, назвав её «really, really dangerous». Спор о том, стоит ли вообще наделять модели субъектностью, выходит в публичную плоскость (The Neuron).
ASML — самая дорогая компания в истории Европы. Производитель литографических машин для самых передовых чипов взлетел до капитализации $674 млрд: аналитики ставят на то, что спрос на его оборудование продолжит расти вместе с гонкой ИИ-чипов (Tom's Hardware).
Карп из Palantir: бизнес недоволен frontier-лабораториями. Алекс Карп говорит, что корпоративные клиенты раздражены тем, как работают передовые лаборатории: те, по его словам, заняты сжиганием токенов ради видимости продуктивности, а растущие счета пугают компании (CNBC).
Visa встроит платежи в ChatGPT. Visa и OpenAI подключают платёжные инструменты к агентной системе: ИИ-агенты смогут сами оплачивать покупки в рамках заданных лимитов и правил, а Visa берёт на себя защиту от мошенничества, чарджбэки и возвраты. По данным Visa, больше каждой пятой транзакции уже подсказана тем, что люди узнают через нейросети (Techpresso).
SpaceX показала спутник AI1. Как мы отмечали вчера, SpaceX раскрыла дизайн орбитального ИИ-дата-центра. Из нового: видео конструкции, фабрика в Бастропе на 11+ млн кв. футов, цель запустить производство до 2028 года, а Google и Anthropic уже записаны в клиенты орбитальных вычислений (SpaceX).
Ramp Applied AI Solutions. Ramp запускает направление, где инженеров встраивают в финансовые команды клиентов, чтобы те собирали под них кастомные ИИ-решения (Ramp).
Гильдия арт-директоров — против Скорсезе. Гильдия раскритиковала Мартина Скорсезе за роль советника в ИИ-стартапе Black Forest Labs, обвинив режиссёра в том, что он «повернулся спиной к художникам-людям» (Variety).
Учитель немецкого собрал ИИ-приложение для беженцев. Читатель The Rundown, преподаватель немецкого для людей с беженским прошлым, «вайбкодил» приложение: оно переводит официальные письма на родной язык, учит юридической лексике, пишет ответы и выдаёт чек-лист с дедлайнами. Маленький, но точный пример того, ради чего всё это (The Rundown).