Claude строит Claude, ChatGPT учится «видеть сны» и PM Skills 2.0 Публичный пост

6 июня 2026 145

Главная тема дня — рекурсивное самоулучшение ИИ: Anthropic впервые показала внутренние цифры о том, как Claude разрабатывает следующего Claude. Параллельно OpenAI перестроила память ChatGPT, в сеть утёк новый «Оцеанус», а Павел Хурын выкатил крупное обновление бесплатного набора Claude-скиллов для продактов. Разбираем по порядку.

Claude уже помогает строить Claude: Anthropic о рекурсивном самоулучшении

Главный сюжет суток — отчёт Anthropic Institute «When AI builds itself» о рекурсивном самоулучшении (recursive self-improvement, RSI). Это сценарий, в котором ИИ-системы сами проектируют и собирают более способных преемников. Anthropic осторожна: петля «remains incomplete», а само RSI «is not inevitable» — но признаёт, что Claude ускоряет разработку ИИ «faster than we thought».

Цифры, которые стоит запомнить. Более 80% production-кода, влитого в кодовую базу Anthropic в мае 2026, написал Claude. Средний инженер компании теперь мёрджит в 8 раз больше кода в день, чем в 2024-м. На самых открытых, неструктурированных задачах по кодингу success rate Claude дошёл до 76% — рост на 50 процентных пунктов за полгода.

Самое любопытное — про новую внутреннюю модель Claude Mythos Preview. В одном исследовательском тесте она ускорила код обучения моделей примерно в 52 раза (для сравнения: Opus 4 давал ~3x). А в сессиях, где человек-исследователь сворачивал не туда, Mythos предлагал лучший следующий шаг в 64% случаев.

Anthropic раскладывает разработку ИИ на две части: execution (писать код, гонять эксперименты, чинить баги) и judgment (решать, какие задачи важны и каким результатам доверять). Claude уже силён в execution; направление пока задаёт человек. Соавтор отчёта Jack Clark формулирует, куда ведёт тренд: «Each new version of Claude could be built by the version before it, without human involvement».

Компания описывает три возможных будущих: прогресс упрётся в потолок; лаборатории наращивают эффективность, но люди остаются у руля; либо ИИ научается полностью строить преемников. Anthropic заявляет, что замедлит или поставит на паузу фронтирную разработку, если так же поступят конкуренты, и анонсирует серию policy-обсуждений в ближайшие месяцы.

Тема носится в воздухе не только у Anthropic. OpenAI на этой же неделе отметила первые «искры» RSI в своём блюпринте «Democratic Governance of Frontier AI», а лаборатория MiniMax заявила, что её модель M2.7 помогала строить саму себя. Вердикт The Rundown трезвый: неизвестность вокруг RSI пугает, но «it's also hard to fathom a feasible pause scenario that hinges on global coordination» — глобальную паузу, требующую согласия всех, представить тяжело.

Иллюстрация к отчёту Anthropic «When AI builds itself» о рекурсивном самоулучшении. Из рассылки The Rundown AI

Утечка: Anthropic готовит «Оцеанус» — новую версию Mythos

В продолжение темы Mythos — свежий лик от TLDR. Anthropic, судя по всему, готовит публичный запуск новой версии Mythos, которая лучше, чем Mythos Preview. Чекпойнт модели под кодовым именем Oceanus (строка модели — claude-oceanus-v1-p) недавно раздали red-team-тестировщикам.

Такие программы обычно стартуют примерно за неделю до широкого релиза — то есть запуск близко. Но есть нюанс: программу, по сообщениям, приостановили из-за того, что один из участников перепродавал доступ к модели через китайский API-прокси. Повлияет ли это на дату релиза — пока неизвестно.

OpenAI учит ChatGPT «видеть сны»: новая память

OpenAI обновила память ChatGPT, и в основе — механизм под названием «dreaming» (сновидение). Это фоновый процесс, который превращает прошлые диалоги в единый, отсортированный по категориям профиль пользователя — вместо прежнего списка разрозненных фактов.

Теперь ChatGPT ведёт связное текстовое резюме о вас, сгруппированное по темам вроде путешествий, хобби и работы. Память можно просматривать и править: внести правку, добавить деталь или попросить не поднимать определённые темы. Обновляется всё автоматически со временем.

Цифры из собственных тестов OpenAI впечатляют: фактическая точность вспоминания (factual recall) выросла с 41,5% до 82,8%, а следование предпочтениям пользователя — с 31,4% до 71,3%. Раскатка началась на Plus- и Pro-пользователей в США, дальше — Free, Go и другие страны в течение нескольких недель.

Почему это важно. Память — одна из самых «залипательных» функций ИИ: чем лучше ассистент помнит контекст, тем труднее уйти к конкуренту. The Rundown прямо отмечает, что dreaming может стать ключевым элементом той «гиперперсонализации», о которой постоянно говорит Сэм Альтман.

Иллюстрация к обновлению памяти ChatGPT с механизмом «dreaming». Из рассылки The Rundown AI

PM Skills 2.0: бесплатный набор Claude-скиллов для продактов обновился

Самый практичный материал дня — для тех, кто работает с Claude Code и Cowork. Павел Хурын (Product Compass) выпустил PM Skills 2.0 — бесплатный MIT-маркетплейс из 9 плагинов, 68 скиллов и 42 команд, который уже собрал около 12 000 звёзд на GitHub. Напомним механику: скилл даёт Claude готовый метод, команда (слэш-воркфлоу) запускает его вручную, а плагин группирует скиллы по доменам.

В этом релизе два главных нововведения. Первое — команда /red-team-prd. Она атакует живые допущения вашего PRD, роадмапа или однострочной гипотезы прямо сейчас, пока их ещё можно поменять, и ранжирует самые рискованные. Для каждого допущения она называет, при каком условии оно провалится, какие данные собрать на этой неделе и какой самый дешёвый тест провести.

Пример. Вы пишете:

/red-team-prd Prioritize AI onboarding, activation is our bottleneck

И получаете в ответ:

Claim: Activation is the constraint on growth.
Fails if: retention, not activation, is where users actually drop off.
Evidence to get this week: the activation-to-retention funnel for the last 3 cohorts.
Cheapest test: pull the funnel. One afternoon, no engineering.

Claim: AI onboarding raises activation.
Fails if: AI onboarding adds setup anxiety for first-time users.
Cheapest test: a 5-user moderated walkthrough of a clickable prototype.

Совет автора — гонять команду на своём роадмапе до ревью, а не после: «kill a bad bet on a Tuesday instead of defending it in front of leadership a quarter later».

Второе нововведение — плагин AI Shipping Kit для тех, кто отвечает за код, написанный ИИ. Зонтичная команда /ship-check отвечает на главный вопрос «безопасно ли это релизить?»: документирует систему, сверяет код с задокументированным замыслом (принцип «intended vs. implemented»), картирует тестовое покрытие и собирает «shipping packet» под подпись человека. Технических навыков не требуется — нужно лишь понимать, что система должна была делать.

Внутри Kit пять команд:

/document-app          — создаёт документацию системы
/security-audit-static — проверяет безопасность против задокументированного замысла
/performance-audit-static — ищет over-fetching, отсутствующие индексы, кэширование
/derive-tests          — что протестировано, что предложено, что не проверено
/ship-check            — полный прогон и сборка shipping packet

Установка в Cowork: откройте Customize в левом нижнем углу → Browse plugins → Personal → «+» → Add marketplace from GitHub → вставьте https://github.com/phuryn/pm-skills. Все 9 плагинов ставятся разом, дальше включаете нужные.

В Claude Code это две команды:

claude plugin marketplace add phuryn/pm-skills
claude plugin install pm-execution@pm-skills
claude plugin install pm-ai-shipping@pm-skills

Важная деталь для академии: сами SKILL.md написаны в универсальном формате и переносятся в Codex CLI, Cursor, Gemini CLI, OpenCode и Kiro — Claude-специфичны только слэш-команды. Хурын также подчёркивает, как идеально PM Skills (метод) сочетается с его же PM Brain (markdown-«вторым мозгом» с контекстом продукта): один даёт строгость, другой — контекст.

Карта воркфлоу PM Skills 2.0 — от дискавери и стратегии до ревью кода, написанного ИИ. Из рассылки Product Compass Павла Хурына

Cognition даёт гарантию: Devin окупится или мы доплатим

Интересный ход на корпоративном рынке. Cognition (создатели ИИ-инженера Devin) представила AI Productivity Guarantee: если Devin приносит меньше инженерной ценности, чем вы за него платите, компания будет финансировать ваше использование, пока не принесёт — вплоть до $10 млн.

Механика измерения двухступенчатая: система сначала проверяет, была ли работа Devin реально полезной, а затем оценивает, сколько времени та же задача заняла бы у человека-инженера. На фоне двух лет, когда ИИ-стартапы просили верить в продуктивность по демкам и счетам за токены, это попытка «приложить чек» к обещаниям.

Туториалы и промпты

«AI work receipt»: заставьте бота отчитаться о реальной пользе. The Neuron предлагает после любой важной задачи требовать от ChatGPT, Claude или Gemini «чек о проделанной работе» — чтобы не путать активность с ценностью. Промпт (дословно):

Review the work we just completed and create an AI work receipt.

Include:
1. Finished output: What was actually completed?
2. Human baseline: How long would this likely take me manually?
3. AI-assisted time: How long did this take with you?
4. Review required: What did I still need to check, rewrite, or fix?
5. Risk: What could be wrong, incomplete, or misleading?
6. Final value estimate: Was this a small assist, a major time saver, or not worth using AI for?

Be conservative. Do not count drafts, ideas, or unused output as completed work.

Ключевая строка — «be conservative»: ИИ умеет звучать продуктивно, а чек заставляет доказать, что результат «survived contact with reality».

Стресс-тест бизнес-идей одним промптом в Perplexity. The Rundown выпустил гайд по проверке любой бизнес-идеи через Perplexity Deep Research. Идея — сохранить один промпт и прогонять каждую новую идею. Шаги (дословно):

1. Open Perplexity and switch to Deep Research mode.
   This works on the free plan (5 queries/day)

2. Paste this prompt with your idea in the chat, hit run, and walk away for 5 to 6
   minutes. Perplexity does the research and builds the slide deck in the same run

3. Save the prompt somewhere you will actually use it again, like in a dedicated
   Perplexity space

4. Then, every Saturday morning, take one idea off your list and run it.

Pro tip из гайда — собрать варианты промпта: версия на 6 слайдов под питч сооснователю, версия для сравнения двух идей и план MVP на 90 дней для прошедших валидацию. (Текст самого промпта лежит на странице гайда, в письме его нет.)

Инструменты дня

Raindrop 2.0 (raindrop.ai) — мониторинг production-агентов: ловит «тихие» сбои, трассирует, что именно пошло не так, и проверяет, сработал ли фикс на живом трафике. Полезно всем, кто выводит агентов в прод.

Defending Code Reference Harness (GitHub Anthropic) — открытая референс-реализация от Anthropic для автономного поиска и устранения уязвимостей силами Claude. Основа для своих security-пайплайнов; у Anthropic есть и managed-вариант. Бесплатно.

Higgsfield MCP (higgsfield.ai/mcp) — MCP-сервер, который помогает «собирать компанию» прямо из Claude: бренд-айдентика, экраны приложения, motion-видео, посты основателя, рекламные креативы. Релевантно тем, кто осваивает MCP.

Tasklet for Teams (tasklet.ai) — превращает персональные агент-воркфлоу в общую корпоративную инфраструктуру: командные workspace, общие инструменты, знания и агенты, плюс контроль расходов.

Spiral 4.0 (writewithspiral.com) — учится вашему стилю письма по примерам и отдаёт эту «voice system» командам, агентам, CLI, API и через MCP. От $15/мес.

Stemdeck (GitHub) — разбивает песню на стемы (вокал, барабаны, бас, гитара, пиано) из ссылки на YouTube или MP3, монтаж локально в multitrack. Бесплатно попробовать.

Locally (lmstudio.ai/locally) — переносит локальные модели LM Studio на iPhone и iPad через end-to-end шифрованную связь с десктопом. Цена не указана.

Ollama Model Tester (GitHub) — CLI для сравнения локальных Ollama-моделей: прогоняет один и тот же промпт несколько раз и сохраняет ответы для сравнения.

Советы и приёмы

Конец «ко-интеллекта»: пора договариваться с агентами. Итан Молик в эссе «Co-Existence and the End of Co-Intelligence» фиксирует сдвиг: теперь человек должен сознательно решать, когда передать работу агенту, когда отказаться от его помощи, а когда оставить суждение за собой. Эпоха, где ИИ был просто «соавтором рядом», заканчивается — начинается эпоха распределения ролей между человеком и автономными агентами.

Беглое «рассуждение» моделей всё ещё хрупкое. The Neuron напоминает про исследование GSM-Symbolic от Apple: достаточно добавить в школьную математическую задачу нерелевантную деталь — и точность моделей резко падает. Практический вывод для учеников: не доверяйте «рассуждению» вслепую, проверяйте ответы на задачах, где цена ошибки высока.

Коротко: остальные новости суток

TSMC: дефицит чипов надолго, но без подорожания. Глава TSMC C.C. Wei предупредил акционеров, что удовлетворить разогнанный ИИ спрос на чипы удастся нескоро — при этом цены компания обещает держать стабильными.

Лаборатории объединились против биорисков. Главы OpenAI, Anthropic, Google DeepMind и Microsoft (Альтман, Амодеи, Сулейман, Ван, Хассабис) подписали открытое письмо Конгрессу с требованием обязать продавцов синтетической ДНК проверять каждого покупателя. Аргумент: «AI systems now outperform PhD-level virologists», и барьеры, исторически мешавшие создателям биооружия, «meaningfully erode».

Supabase: $500 млн при оценке $10,5 млрд. Open-source база данных подняла раунд на волне спроса на vibe-coding, всё глубже встраиваясь в инфраструктуру для агентов.

Generalist AI: $400 млн на «физический AGI». Стартап привлёк $400 млн на физический ИИ; среди инвесторов — Radical Ventures и NVIDIA.

США и Япония: $1 млрд на ИИ-науку. Страны объявили партнёрство на $1 млрд — Япония первой присоединилась к американской Genesis Mission по удвоению научной продуктивности с помощью ИИ.

Канада: «AI for All» на $200 млрд. Премьер Марк Карни запустил пятилетнюю нацстратегию с целью $200 млрд роста и 250 000 ИИ-рабочих мест.

NVIDIA Nemotron 3.5 Content Safety. Компания выпустила единую мультимодальную и мультиязычную модель для корпоративной модерации с аудируемым рассуждением — под production-пайплайны.

Apple пустила сторонний ИИ в Messages. Apple одобрила сервис Poke для iMessage — теперь с агентом можно общаться прямо в переписке; часть пользователей жалуется на задержки из-за наплыва.

Великобритания: издатели смогут отказаться от ИИ-поиска. Регуляторы обязали Google дать издателям opt-out от генеративных функций в поиске; тест сначала в UK, затем глобально.

1X открыла World Model Lab. Производитель гуманоидов запустил лабораторию world-моделей, доказывая, что универсальным роботам нужны выделенные «модели мира», а не просто файнтюн.

Ботов в интернете уже больше, чем людей. Сооснователь Cloudflare Мэттью Принс сообщил, что бот-трафик впервые превысил человеческий — на год раньше его прогнозов.

Gopuff Go: ИИ-помощник по покупкам на Grok. Сервис доставки запустил ассистента Go, который предсказывает корзину пользователя по данным заказов и сигналам из X в реальном времени.