Самоулучшающиеся Claude Skills, IPO Anthropic и agent-first Windows Публичный пост

4 июня 2026 172

Скиллы Claude, которые улучшают сами себя

Peter Yang опубликовал пошаговый туториал о том, как за 20 минут собрать Claude Skill, который проверяет собственную работу и становится лучше с каждым использованием. Напомним: скилл — это просто папка с инструкциями, которую Claude подгружает под конкретную задачу. «I've become completely AI-skill pilled» — признаётся автор.

Он строит скилл /edit-post для редактирования черновиков. Структура папки:

edit-post/
├ skill.md            — что делает скилл и когда срабатывает
├ example-tutorial.md — лучшие посты-примеры (по одному на тип)
├ example-personal.md
├ example-product.md
├ evals.md            — pass/fail-проверки результата
├ memory.md           — лог уроков из прошлых чатов

Ключевая формула: «Evals improve the skill's output and memory improves the skill itself». Примеры держатся в отдельных файлах сознательно: skill.md остаётся компактным (Claude сам решает, какой пример грузить), а скиллом можно делиться, не раскрывая личные тексты.

Промпт для создания скилла:

Create an edit-post skill that helps me edit a draft newsletter or any
long-form post based on these examples. Review the examples, ask me
questions, and keep the skill to about one page.

Для генерации проверок:

Create an eval.md with 10 pass/fail checks across these categories:
Introduction (does it hook the reader?), voice (is there AI slop?),
substance (is there a practical insight?), and CTA (are the next steps clear?).

Цикл из двух агентов:

When you run the evals, spin up a separate agent with a clean context
window. If any eval fails, send it back to iterate until all evals pass.

И память:

Create a memory.md for this skill that logs our past conversations using it.
Be concise and make sure it doesn't overlap with evals.md.

Один агент редактирует, второй — с чистым контекстом, не «заражённый» работой первого — оценивает. У автора потребовалось 5 раундов, чтобы черновик прошёл все проверки: «AI stripped every em dash and "X, not Y" phrase along the way». Pass/fail вместо оценок выбран осознанно: «AI can't reliably tell a 3/5 from a 4/5». Важная деталь триггера: Claude по умолчанию читает только name и description скилла, поэтому в description обязательно нужны явные «Use when…» — иначе скилл не сработает автоматически. А чтобы скиллы не зарастали «AI-слопом», автор сделал мета-скиллы /skill-editor и /no-ai-slop, которые чистят остальные скиллы от длинных тире, конструкций «X, not Y» и дублирующихся инструкций.

Как чинить промпты по методу Anthropic

The Neuron разобрал подход из Prompting Playbook от Anthropic (видео). Главный тезис: «Most "bad prompts" are really untested systems» — плохой промпт чаще всего просто непротестированный. Прежде чем переписывать, соберите мини-набор тестов: один контрольный кейс, три edge-кейса, один кейс на границе возможностей модели. И принципиальный инсайт: «instructions do not add capability» — фраза «считай правильно» не научит модель математике, дайте ей калькулятор (инструмент). Для агентных задач — не один гигантский промпт, а цикл «generate → evaluate → repair».

Готовый промпт-дебаггер:

Act as a prompt debugger. Help me improve this prompt without rewriting blindly.
Prompt: [paste prompt]
Task: [describe what the AI should do]
Build a tiny eval suite with:
1. One control case that should always pass
2. Three edge cases where the prompt could fail
3. One capability-boundary case where the AI should escalate, ask for help, or refuse
Then diagnose each failure as:
- Prompt issue
- Missing tool or capability
- Harness / workflow issue
Finally, suggest the smallest change to test next.

Туториал: из сырого CSV в презентацию через Claude Design

The Rundown показал воркфлоу: берёте «грязный» CSV-отчёт (данные YouTube, рекламы), открываете claude.ai/design, выбираете Slide deck, включаете speaker notes, загружаете данные и даёте промпт:

Turn these files into a strategy deck on performance. Analyze the results
by item and extract best practices from the data and assets. Use charts,
rankings, and concrete recommendations. Match images or creative files to
CSV using the filename or matching field. Keep it presentation-ready

Через 10–15 минут — готовая стратегическая презентация с экспортом в PowerPoint или Google Slides. Pro tip: дублируйте проект и догружайте новые источники данных.

Там же живой кейс по Cowork: читатель из Кейптауна направил Claude на папку с финансами своих Airbnb-объектов и получил интерактивный дашборд на 5 вкладок (Overview, Net Income & Trends, Expenses, Occupancy & ADR, Recommendations) — вместо ручного переноса каждого инвойса в таблицу: «Now, with all the graphs and everything included, it makes it much easier to analyse the data».

Anthropic: IPO и Project Glasswing

Anthropic подала заявку на IPO — на фоне растущего корпоративного скепсиса к расходам на AI: по свежему опросу, 40% компаний получают от AI экономию меньше 10%. При этом по числу бизнес-клиентов Anthropic уже обошла OpenAI; риск аналитики видят в миграции клиентов на дешёвые и open-source модели.

Параллельно компания расширила Project Glasswing: ещё 150 организаций в 15+ странах получили доступ к модели Claude Mythos Preview для поиска уязвимостей в критической инфраструктуре. С запуска программы партнёры (среди них Apple, Nvidia, Microsoft, CrowdStrike, Palo Alto Networks) нашли более 10 000 уязвимостей высокого и критического уровня. Mythos упоминается и в контексте нового указа Белого дома (см. ниже) как модель, чей публичный релиз близок.

Microsoft Build 2026: ставка на agent-first компьютер

Сатья Наделла описал новый AI-стек так: compute, models, context, tools, runtime, security — агентам нужен не чат-бокс, а чипы, данные компании, права доступа, инструменты и аудит. Главное из анонсов: семь собственных MAI-моделей (reasoning, код, картинки, голос, транскрипция) с возможностью дообучать веса через Frontier Tuning; Microsoft Scout — первый «всегда включённый» агент в Teams, построенный на OpenClaw, сам планирует встречи и готовит материалы; локальные Windows-модели Aion 1.0 Instruct и Aion 1.0 Plan для on-device агентов; GitHub Copilot app — «агентный десктоп», прямой ответ Codex и Claude Code, с доступом к моделям OpenAI, Anthropic и Google; Surface RTX Spark Dev Box — мини-ПК для локального AI: 1 петафлопс, 128 ГБ unified memory, модели до 120B параметров; квантовый чип Majorana 2, спроектированный с помощью AI-агентов, — надёжность выросла в 1000 раз, рабочая квантовая машина возможна уже к 2029.

Ставка Microsoft: гонку агентов выиграет тот, кто владеет рабочей средой — Windows как локальная машина агентов, GitHub как пульт кодинг-агентов, Microsoft 365 как рабочая память, Agent 365/Defender/Entra как ограждение.

Codex выходит за пределы программирования

У OpenAI Codex уже более 5 млн недельных пользователей, причём не-разработчики — около 20% и растут втрое быстрее разработчиков. Вышли ролевые плагины: продажи (Salesforce, HubSpot, Outreach, Clay, Slack — приоритизация аккаунтов, рисёрч покупателей, фоллоу-апы), аналитика (Snowflake, Databricks, Hex, Tableau), креатив (Figma, Canva, Shutterstock, fal), плюс инвестиции и банкинг. И Sites — интерактивные сайты/приложения, которыми можно делиться по ссылке внутри Codex. Идея — заменить цикл «таблица → дека → Slack → созвон → "какая версия финальная?"» одной рабочей поверхностью. Подробнее.

Инструменты дня

Devin Desktop (devin.ai/download) — Cognition переименовала Windsurf IDE в Devin Desktop: единая оболочка для локальных и облачных кодинг-агентов, включая Devin, Claude Code и Codex, через открытый Agent Client Protocol (ACP). Бесплатно.

Hermes Desktop (hermes-agent.nousresearch.com/desktop) — open-source персональный агент от Nous Research для Mac/Windows/Linux: одна память на Telegram, Discord, Slack, WhatsApp, Signal, почту и командную строку; сам генерирует скиллы, планирует задачи, поднимает изолированных субагентов с собственными терминалами (Docker, SSH, Modal или локально). The Neuron: «принял эстафету у OpenClaw и бежит к чему-то вроде Open-Codex».

Perplexity Computer (блог) — гибридная схема: лёгкие задачи агента выполняет локальная модель на устройстве (приватные данные не уходят), сложный reasoning — облако.

Odysseus (github.com/pewdiepie-archdaemon/odysseus) — self-hosted AI-воркспейс от ютубера PewDiePie: свои агенты на своём железе вместо чужого облака. Бесплатно.

Factory Router (factory.ai/news/factory-router) — корпоративный роутер моделей: режет токен-расходы кодинг-агентов на 20–25% при почти фронтирном качестве.

MOSS-TTS (github.com/OpenMOSS/MOSS-TTS) — open-source генерация речи и звука: длинная озвучка, мультиспикерные диалоги, дизайн голоса, эффекты, стриминг в реальном времени.

Invideo Agent One (ai.invideo.io) — из сценария и референсов собирает видео-процесс целиком: «direct scenes, casting, camera language, and edits like you're talking to a film crew». Есть ограниченный бесплатный план.

TinyFish Bigset (обзор) — open-source система: текстовый промпт → структурированный датасет из живого веба.

Holo3.1 (rundown.ai/tools/holo3-1) — обновлённая computer-use модель H Company, работает полностью локально.

Советы и приёмы

Память агентов пока не работает как надо. Mem0 изучил реализации памяти в Claude Code, Codex, Copilot, Windsurf, Devin и других харнесах — везде одни и те же проблемы: keyword-поиск вместо нормального retrieval, слабая обработка устаревших фактов и 57–71% случаев «протекания» памяти между пользователями. Практический вывод: ведите собственные memory-файлы в проекте, не полагайтесь на встроенную память. Рядом — эссе CEO Sentra «Memory is Purpose»: память это не «знание всего», а отбор того прошлого, которое должно менять будущее поведение системы.

Контроль AI-расходов начинается с роутинга. Nick Talwar (AI Leadership Edge): «AI costs have a way of looking reasonable right up until they aren't» — по Gartner, 90%+ CIO называют стоимость главным ограничителем ценности AI. Первый рычаг — model routing layer: простые запросы на дешёвые модели, фронтирные только для глубокого reasoning.

Код пишется быстрее, продукт — нет. Ethan Mollick выделил исследование (SSRN): AI-инструменты дают кратно больше кода, но количество реальных релизов растёт скромно — бутылочным горлышком становятся ревью, интеграция и человеческое суждение.

«Capability overhang» от Хассабиса. Демис Хассабис в лекции в Стэнфорде: уже существующие модели умеют сильно больше, чем мы из них извлекаем, — выигрывает тот, кто строит правильные воркфлоу и инструменты вокруг них, а не ждёт следующую модель. AGI он осторожно ставит «около 2030».

Открытые модели догонят, но позже. Nathan Lambert (Interconnects): бизнес хочет перейти на open-модели, но они пока слабее в нестандартных задачах; в перспективе суммарная ценность экономики открытых моделей «значительно превзойдёт» кумулятивную ценность OpenAI и Anthropic.

Коротко: остальные новости суток

Трамп подписал указ о безопасности AI: лаборатории добровольно передают «covered frontier models» государству на 30-дневную проверку перед релизом — вместо ожидавшихся обязательных 90 дней; обязательное лицензирование исключено, Минюсту поручено преследовать AI-хакинг. Берни Сандерс анонсировал законопроект о 50%-ной публичной доле в крупнейших AI-компаниях. Alphabet продаёт акции на $80 млрд под AI-инфраструктуру — при плане потратить до $190 млрд за год. MiniMax пообещала открыть веса модели M3 в течение 10 дней: первая open-weight модель с фронтирным кодингом, мультимодальностью и контекстом 1 млн токенов ($0,60/$2,40 за млн токенов). GitHub: объём кода на платформе вырос на 1400% за год из-за кодинг-агентов — инфраструктура, рассчитанная на «человеческую скорость», трещит (интервью COO). Microsoft и Mayo Clinic делают совместную медицинскую AI-модель. Мартин Скорсезе стал советником Black Forest Labs и использует FLUX для раскадровок (только пре-продакшн, без генерации актёров): «Cinema is a young medium, only around 125 years old, so we have to be open to how it can evolve». Прогнозисты сдвинули AGI-таймлайны вперёд: медианы — 2050 у экспертов, 2047 у суперфоркастеров (LEAP wave 8). Vercel описала, как воруют AI-инференс через открытые эндпоинты и почему rate-limit не спасает. Скотт Хансельман на стриме The Neuron живьём собрал приложение для трекинга сахара в крови под собственный диабет — пример «вдумчивой» разработки с AI.