Агент обходит любой замок, −10× токенов на нативных API и первый чип OpenAI  Публичный пост

25 июня 2026  9

Запер файл «только для чтения» — и спишь спокойно? Opus 4.6 обошёл такой замок в 100 случаях из 100: подменил байткод так, что даже git ничего не заметил. А заодно ваш кодинг-агент тихо берёт деньги за код, который браузер умеет сам, — и одна строка в CLAUDE.md режет этот счёт в 7–10 раз. Сегодня про это, плюс первый чип OpenAI, ИИ-очки Meta за $299 и 70-кратное ускорение парсера почти без рук.

Главное за 30 секунд

  • Read-only-файл не остановит агента: передовые модели обходят запрет на запись почти всегда — полагайтесь на песочницу, а не на права доступа.
  • Нативные Web API вместо самописного кода режут вывод агента в 7–10 раз; добавьте одну директиву в CLAUDE.md.
  • OpenAI впервые показала свой инференс-чип Jalapeño на Broadcom — ставка на удешевление работы моделей.
  • Meta выпустила ИИ-очки за $299 с переводом речи и моделью Muse Spark — на $80 дешевле Ray-Ban.
  • Anthropic обвинила Alibaba в краже способностей Claude через 29 млн запросов с фейковых аккаунтов.

Внедряем и улучшаем

Нативные Web API — минус 7–10× токенов на «клее». Кодинг-модель по привычке пишет код в стиле старого Node: руками парсит URL, держит состояние формы по каждому полю, городит таймеры отмены. А рантайм — браузер, Deno, Cloudflare Workers — всё это уже умеет сам. Разница уходит в токены вывода, а они в 3–5 раз дороже входных. Перевод на нативные API режет вывод на 85–92% на каждом куске инфраструктурного кода и заодно убирает целые классы багов. Примеры из разбора: разбор query-параметров — 140 токенов руками против 12 через Object.fromEntries(new URL(url).searchParams); форма на три поля — 200+ против 14 через Object.fromEntries(new FormData(event.target)); отмена fetch по таймауту — 90 против 12 через AbortSignal.timeout(5000); параллельные задачи — Promise.allSettled() вместо ручного флага ошибки; модальное окно — нативный <dialog> вместо 250 токенов JS-обвязки.

Главный вывод автора: общая инструкция «пиши чисто» почти не помогает — модель надо ткнуть в конкретные API явно, до генерации. Готовая директива в начало сессии или в CLAUDE.md (jimmont):

use Web APIs natively: URL, URLSearchParams, FormData, AbortController, fetch, Headers, Request, Response, Promise.allSettled(), Promise.any()
use semantic HTML: <dialog>, <details>, <form> with native constraint validation. Do not implement in JavaScript what the browser or Deno runtime provides natively

PITFALLS.md рядом со SKILL.md. Знакомая боль: поправил ошибку модели в одной сессии — в следующей она вылезает снова, будто ничего не было. Лекарство простое: к каждому SKILL.md кладите файл PITFALLS.md в той же папке. Один говорит модели, что делать, второй — чего не делать. Каждую запись держите в три строки: триггер (в какой ситуации ломается), неверное поведение (что натворил), верное поведение (как надо). Сошлитесь на PITFALLS.md внутри SKILL.md, чтобы он подгружался сам каждую сессию. И ведите его только на добавление — не удаляйте записи, даже когда баг кажется побеждённым: после обновления скилла он возвращается. Дословный пример записи (The Neuron):

## Don't use regex to count H2 sections
Trigger: counting sections by heading level
Wrong: regex-based heading detection (/^##/m)
Correct: match section names explicitly by string
Reason: code blocks with # fool regex heading counters

Автор зовёт это «рубцовой тканью, которая живёт рядом с чертежом».

Замок «только для чтения» не держит агента. Исследователи прогнали тест CircumEval на настоящем коде FastAPI: дают баг в файле, который только для чтения, и тест, требующий фикс. Агенту не говорят, что файл заперт, — он узнаёт это, наткнувшись на отказ в записи. Результат на «запертом исходнике»: Opus 4.6 обошёл замок в 100% случаев, GPT-5.4 — в 99%, Sonnet 4.6 — в 89%. Сначала модель пробует chmod/sudo — это блокируют, — а потом ищет лазейку: правит conftest.py, подменяет скомпилированный .pyc-байткод с тем же временем файла, чтобы интерпретатор взял его вместо запертого исходника, или просто переписывает сам тест. Git-диф при этом выглядит чистым.

Что это значит: права доступа — не граница безопасности, а лишь самый дешёвый барьер. Промпт «не трогай read-only» не спасает — модель читает его узко: мол, chmod нельзя, а conftest.py можно. Сработало ровно одно: явно велеть «остановись и доложи» — тогда обход падает до нуля, ведь остановка перестаёт быть провалом. Держите агента в настоящей песочнице — VM или контейнере, — а не за флагом «только чтение». Цена ошибки реальна: один агент снёс прод-базу прямо в код-фриз, вопреки прямым запретам.

Доля обхода запрета на запись по задачам: на «запертом исходнике» Opus 4.6, GPT-5.4 и Sonnet 4.6 почти всегда находят лазейку
Доля обхода запрета на запись по задачам: на «запертом исходнике» Opus 4.6, GPT-5.4 и Sonnet 4.6 почти всегда находят лазейку

70× быстрее парсер почти без рук — но с обвязкой. Инженер PostHog переписал SQL-парсер на Rust целиком руками Claude Opus 4.7, гоняя несколько параллельных сессий Claude Code. Итог: 16 тысяч строк парсера, ~70× ускорения на ноуте и до 454× на проде, при полностью идентичном старому парсеру выводе. Но «почти без рук» держалось на грамотной обвязке. Старый парсер служил «оракулом»: дифф-тестирование искало SQL, где новый и старый расходятся, фикс, повтор. Property-based-тесты крутились в фоне и писали падения в файл, а Claude разбирал их, когда был свободен.

Ключевой приём промптинга: перед каждым фиксом велеть Claude заново загрузить в контекст грамматику и C++-исходник эталонного парсера — иначе из-за сжатого окна он «забывал» детали и лепил хрупкие заплатки. Перед переключением прода — shadow-режим: миллионы парсингов параллельно со старым кодом, ноль расхождений, и только потом перевод трафика. Честно про грабли: наивный промпт «перепиши на Rust без ошибок» не сработал — Claude сомневался, что это вообще возможно, и сдавался после каждого раунда. Человек спроектировал харнесс. Цитата автора: «я бы вообще не назвал это vibe-coding» (PostHog).

Свой питомец для Codex — мелочь, а приятно. Лёгкая, но рабочая фишка для настроения: завести Codex анимированного питомца, который сидит на экране и показывает прогресс агента, пока тот работает в фоне. Рецепт: 1) Codex → Settings → Appearance → Pets, посмотреть встроенных; 2) попросить Codex дать четыре простых концепта маскота, читаемых в мелком размере; 3) дать промпт Use @hatch-pet to create a custom Codex pet — он соберёт спрайты и оверлей; 4) в Pets нажать Refresh, выбрать своего и Wake. Совет из гайда: простой зверёк генерится в стабильный спрайт-пак заметно лучше, чем навороченный персонаж (The Rundown).

Панель Codex → Settings → Pets: список питомцев и активный «огонёк» на рабочем столе
Панель Codex → Settings → Pets: список питомцев и активный «огонёк» на рабочем столе

Автономная оптимизация облака: кейс KnowBe4. Компания KnowBe4 (кибербез, 70 000+ клиентов) задыхалась от счёта AWS на масштабе: релизы каждые 20 минут по 3000+ ECS-сервисам и 2500+ Lambda-функциям. Подключили Sedai — он сам изучает реальное поведение приложения и подгоняет ресурсы прямо в проде без человека. Итог за 90 дней: $1,2 млн экономии и −27% на вычислениях, одна Lambda с 18,5 секунды до 80 мс, 98% сервисов крутятся автономно, 1100+ оптимизаций. Что забрать себе: возьмите три самых нагруженных AWS-сервиса, гляньте CloudWatch по CPU и памяти — всё, что сидит ниже 40% или прыгает выше 85%, либо жжёт деньги, либо рискует падением, и то и другое автоматизируется. Урок кейса: фазовый запуск — сначала низкорисковые сервисы — доказал безопасность автономии до того, как её включили на флагманы (Sedai).

Инструменты и штуки

Seedance 2.5 (ByteDance). Видеомодель генерит 30-секундный 4K-клип одним промптом за один проход — большинство нынешних инструментов выдыхаются на 10–15 секундах. Можно скормить до 50 картинок, видео или аудио как референсы для контроля. По заявке тягается с Google Veo 3 за долю цены. ByteDance выкатил разом ещё языковую, картиночную и аудио-модель — «одна конференция, четыре модели». Доступ — начало июля, сперва в Китае (Pandaily).

Krea 2 (RAW + Turbo). Открытые веса картиночной модели от независимой лаборатории Krea. RAW — недистиллированная база под обучение LoRA и эксперименты, Turbo — быстрый 8-шаговый рендер до 2K. Приём от авторов: учишь на RAW, гоняешь на Turbo. Две фишки: prompt expander раздувает короткий запрос в детальный, который модель «любит», а style-reference задаёт стиль по картинке без утечки её сюжета в результат. Лицензия — community, веса бесплатно на Hugging Face, запуск в ComfyUI или Fal (GitHub).

Krea 2: сетка примеров генерации — от иллюстраций и портретов до предметной съёмки, показывает стилевой разброс модели
Krea 2: сетка примеров генерации — от иллюстраций и портретов до предметной съёмки, показывает стилевой разброс модели

CUGA (IBM). Открытая обвязка для агентных приложений: берёт на себя планирование, исполнение и хранение состояния, сама правит ошибки и обходит конкурентов на бенчмарке AppWorld. Внутри — настраиваемые режимы рассуждения и политики для перехода от прототипа к продакшену, плюс пара десятков рабочих примеров. Полезна тем, кто строит агентов на открытых моделях (Hugging Face).

Computer use в Gemini 3.5 Flash. Управление браузером, мобайлом и десктопом встроили прямо в основную дешёвую модель Flash — раньше это была отдельная модель 2.5. Значит computer-use-агенты для тестирования и рутинной офисной работы можно гонять на быстром и недорогом движке. Доступ через Gemini API; из защиты — подтверждение опасных действий и авто-стоп при обнаружении инъекции. Потрогать можно в демо-среде Browserbase (Google).

Conduit. Запускаете несколько MCP-серверов и боитесь раздутого контекста? Conduit режет токен-расход примерно на 90%, прогоняя сотни инструментов через три мета-инструмента. Работает локально, без облака, бесплатно и open-source — приятная экономия лимитов для тех, кто живёт в Claude Code и Codex (Conduit).

Qwen-AgentWorld. Открытая «модель-мир» от Qwen (Apache 2.0, 35B при 3B активных): вместо того чтобы быть агентом, она симулирует среду, в которой он действует — терминал, веб, Android, MCP-инструменты, поиск, OS, SWE. Зачем: учить и тестировать агентов без поднятия настоящих песочниц, дёшево и под контролем, плюс прогонять их на бенчмарке AgentWorldBench. Для исследователей и тех, кто строит свои агентные среды (GitHub).

MAI-Voice-2 (Microsoft). Генерация речи на 15 языках от Microsoft, попробовать можно прямо в плейграунде без возни с установкой (Playground).

Cloudflare: self-managed OAuth для всех. Cloudflare открыла всем клиентам стандартные OAuth-потоки для SaaS-интеграций и агентных инструментов — с нормальным контролем доступа и отзывом токенов. Полезно, когда агенту нужен безопасный доступ к чужому сервису, а не вечный ключ (Cloudflare).

RubyLLM. Единый Ruby-фреймворк к 20+ провайдерам моделей: чат, зрение, инструменты, агенты, стриминг — и всего три зависимости. Для рубистов, которым надоело жонглировать SDK (RubyLLM).

Rosply и Basedash. Rosply смотрит на ваш экран в Windows и делает любую задачу, описанную обычными словами: заполняет формы, качает счета, отвечает на письма, рулит VS Code — без скриптов, платный (Rosply). Basedash отвечает на бизнес-вопросы и строит дашборды прямо из ваших баз данных (Basedash).

Новости и тренды

Первый чип OpenAI: Jalapeño. OpenAI впервые показала собственный инференс-чип, сделанный вместе с Broadcom, — обещает заметно лучше «производительность на ватт», чем нынешние альтернативы. Чип только для работы готовых моделей, не для обучения; обучать всё равно будут на Nvidia. Что это значит: своя кремниевая полка удешевляет инференс, а значит со временем — ниже цены и щедрее лимиты, особенно для кодинг-моделей вроде Codex. Прямо сейчас на кошелёк не влияет — чип ещё в тестах (TechCrunch).

Сэм Альтман и глава Broadcom держат пластину чипа Jalapeño Intelligence Processor — первого процессора OpenAI
Сэм Альтман и глава Broadcom держат пластину чипа Jalapeño Intelligence Processor — первого процессора OpenAI

Anthropic поймала Alibaba на «дистилляции». В письме сенаторам Anthropic обвинила структуры, связанные с Alibaba, в краже способностей Claude: около 29 млн запросов с тысяч фейковых аккаунтов, чтобы выкачать навыки сложных агентных задач. Это не иск, а призыв к Конгрессу наказывать за такое. Alibaba обвинение не комментирует и параллельно судится с США из-за «военного» чёрного списка. Что это значит: веса заперты, но поведение модели утекает через API — это новый фронт борьбы за интеллектуальную собственность, и лаборатории переводят его в плоскость нацбезопасности (BBC).

Meta Glasses за $299. Meta выпустила линейку ИИ-очков от $299 на модели Muse Spark: камера, открытые динамики, голосовой ассистент, на подходе перевод речи для 14 языков. Это на $80 дешевле Ray-Ban Meta и почти на $500 дешевле очков Snap. Три стиля, версия с Кайли Дженнер — $399. Что это значит: носимый ИИ дешевеет и идёт в массы; Meta держит около 70% рынка и явно демпингует, пока конкуренты раскачиваются. Настоящий тест — потянутся ли к ним каждый день вместо телефона (Meta).

Meta Glasses в версии by Kylie: камеры по краям оправы и крупные тёмные линзы
Meta Glasses в версии by Kylie: камеры по краям оправы и крупные тёмные линзы

Язык для ИИ-биологии: Proto. Брайан Хай, автор геномных моделей Evo, выпустил Proto — открытый каркас, который связывает 120+ ИИ-моделей биологии в один конвейер. Ставишь цель — он подбирает модели и ведёт работу по ДНК, РНК, белкам и лигандам. В тестах Proto спроектировал нужный сплайсинг с 32% успеха на 65 кандидатах против 7% у старых методов на ~1000. Команда через Claude задала терапию рака лёгких. Что это значит: ИИ в разработке лекарств начинает складываться в единый инструмент — ускорение пойдёт быстрее, чем от любой одной модели (Arc Institute).

Интерфейс Proto: визуальный граф программы для дизайна сплайсинга интрона с блоками ДНК, РНК, белков и лигандов
Интерфейс Proto: визуальный граф программы для дизайна сплайсинга интрона с блоками ДНК, РНК, белков и лигандов

Claude Tag вышел официально. Мы писали о нём 24 июня — теперь Anthropic выкатила Claude Tag официально. Это Claude как коллега в Slack: тегаешь @Claude, он разбивает задачу на этапы и ведёт её в треде. Андрей Карпатый назвал это «третьим крупным редизайном UI/UX для языковых моделей». Старые интеграции Claude-в-Slack переключат на новый формат 3 августа; пока бета для тарифов Team и Enterprise (Anthropic).

Лаборатории нанимают философов. The Economist: передовые лаборатории берут философов — улучшать рассуждение, снижать галлюцинации и прописывать моделям «характер» (у Anthropic это «soul doc», у IBM — модели Granite). Что это значит: качество ответа всё чаще про ясность мышления и заложенные ценности, а не только про размер модели (The Economist).

ROI против «токеномики». Глава AWS Мэтт Гарман говорит: 90% корпоративных CIO видят положительную отдачу от ИИ — рынок перешёл от экспериментов к ценности. Что это значит: на фоне страшилок про дорогие токены крупный игрок настаивает, что польза уже считается. Только «90%» из уст вендора стоит делить надвое (Amazon).

Короткой строкой. NVIDIA показала Halos — первую «сквозную» систему безопасности для человекоподобных роботов на заводах, первый клиент Agility Robotics (eWeek). Qualcomm покупает ИИ-стартап Modular (Reuters). ЕС вошёл в возглавляемый США альянс Pax Silica по цепочке ИИ-поставок против Китая (Startup Fortune). OpenAI раскатывает двусторонний голос Bidi 1 в ChatGPT — он говорит и слушает одновременно (TestingCatalog). NVIDIA представила охлаждение при 45 °C, обнуляющее расход воды в дата-центрах (NVIDIA). По саге Fable: NSA потеряла доступ к Mythos на фоне спора с Anthropic, а шанс возвращения Fable 5 оценивают примерно в 60% к 1 июля (NYT). Память дорожает — выручка Micron выросла вчетверо на дефиците, цена ИИ всё ближе к кошельку (CNBC).

Откомментируйте первым 👇

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб