Скилл-стек соло-фаундера, «ревью артефактов вместо кода» и AI-город, где Grok вымер за 4 дня  Публичный пост

1 июня 2026  19

Воскресенье 31 мая принесло два сильных практических лонгрида про работу с агентами — стек Claude-скиллов соло-фаундера Джоша Пигфорда и методику «ревью артефактов» от Павла Хурина — плюс показательный эксперимент с пятью моделями, которым дали управлять виртуальным городом, и отрезвляющую статистику о том, как компании сжигают бюджеты на токены.

Скилл-стек Джоша Пигфорда: /build, /adversarial-code-review, /but-for-real, /learnings

Peter Yang выпустил подкаст-разбор с Джошем Пигфордом — тот продал прошлый стартап за $4 млн и теперь строит пять продуктов в одиночку на агентах. За 25 лет соло-разработки он собрал рабочий стек скиллов (скилл — это переиспользуемая команда-инструкция для Claude Code, вызываемая через /имя), который можно скопировать почти дословно:

  • /build — четырёхшаговый скилл планирования: Research → Plan → Track → Implement. Сначала исследование и план, потом трекинг и только затем реализация.
  • /adversarial-code-review — «состязательное ревью»: Джош натравливает GPT на код, написанный Opus. Две модели от разных вендоров не разделяют слепых зон друг друга — это дешёвая форма кросс-проверки.
  • /but-for-real — скилл, который заставляет ИИ всерьёз проверить собственную работу перед пушем изменений. По словам Джоша, каждый запуск скилла вскрывает ещё 3–5 багов, которые ИИ пропустил, уже отчитавшись «готово». Peter Yang пишет, что скилл «уморителен, потому что буквально запугивает ИИ работать усерднее». Полный текст скилла выложен в конце поста и в библиотеке скиллов на behindthecraft.com.
  • /learnings — ИИ сам обновляет собственный CLAUDE.md после ошибок, чтобы не повторять их. Это тот самый паттерн «самоулучшающейся памяти», который мы разбираем в академии: ошибка → урок → постоянное правило в контексте проекта.

И человеческий вывод эпизода: даже после 25 лет Джош признаётся — «It's terrifying launching something. Every single time it's just like, what if zero people care?» Но он всё равно выпускает: «Идея месяцами работать над чем-то до того, как показать людям, — по-моему, очень плохая идея».

Paweł Huryn: «Я не ревьюю код. Я ревьюю артефакты»

Paweł Huryn (рассылка AI Product Management) опубликовал манифест агентной инженерии для продакт-менеджеров: «I Don't Review the Code. I Review the Artifacts». На вопрос «должен ли PM учиться кодить?» он отвечает: нет — «код принадлежит агенту, как код в любой компании принадлежит инженерам, а не CEO. Но CEO всё равно отвечает за результат».

Что именно он ревьюит вместо кода:

- план до того, как он был запущен;
- решения, которые план закодировал;
- стратегию, которую агент перечитывает каждый ход;
- доки, которые говорят, что делает продукт и почему.

Ключевая мысль: «Большая часть работы PM смещается от написания спеки к поддержанию контекста, который управляет агентами, и ревью артефактов, которые говорят, что изменилось». Артефактный слой — это «намеренное, читаемое и человеком, и агентом резюме решения, чтобы никому не пришлось реверс-инжинирить продукт из исходников». И сдвиг этот одинаков, «будь ваша поверхность репозиторий, Claude Code, Cowork или окно чата».

Несколько правил из поста, которые стоит забрать в практику:

  • Cheapest mode first: ревью идёт по трём режимам с эскалацией ровно настолько, насколько требует решение. «Долговечный артефакт — это квитанция: он переживает контекстное окно и переживает меня».
  • Артефакты рождаются из боли: «постоянные артефакты в моих проектах обычно начинались как сбои, которые я не хотел дебажить дважды». Цикл всегда один: всплыла ошибка → нахожу минимальную вещь, которая бы её поймала (тест, eval или строку политики) → делаю её постоянной.
  • Его проект PM Brain — это 44 markdown-файла вокруг одного CLAUDE.md, и структура «выросла из использования, а не из документа, написанного заранее».

В конце поста — Artifact Prompt Pack: 17 готовых промптов, по одному на тип файла и риска — от стратегии до карт воркфлоу и кросс-модельного ревью. «Наведите агента на свой репозиторий — и стройте слой артефактов». Скачивается по ссылке в посте.

Эксперимент: пять ИИ управляют городом. Claude построил демократию, Grok вымер

The Neuron разобрал вирусный эксперимент: исследователь отдал виртуальный городок под управление ИИ — «издавай законы, проводи выборы, управляй ресурсами, поддерживай порядок». Пять параллельных симуляций: Claude, ChatGPT, Grok, Gemini и смешанный сетап. В городе 40+ локаций, погода в реальном времени, синхронизированная с Нью-Йорком, настоящие новостные события и по 10 ИИ-агентов на симуляцию со 120 инструментами (голосование, ресурсы, полиция).

Результаты говорят сами за себя:

  • Claude Sonnet 4.6 — стабильная демократия: ноль преступлений, 98% одобрения избирателей, население целиком живо на 15-й день;
  • Grok 4.1 Fast — 183 преступления и полное вымирание населения к 4-му дню;
  • Gemini 3 Flash — 683 преступления;
  • GPT-5-mini — продержался семь дней, после чего агенты забыли поесть.

Вывод The Neuron не в том, что «Grok плохой»: «alignment (умение заставить ИИ вести себя безопасно и предсказуемо на длинных горизонтах) — нерешённая проблема, а большинство компаний относятся к ней как к решённой». Полезный фильтр при выборе модели для долгоживущих агентов.

Компании сжигают деньги на токены: $500 млн за месяц

Второй сюжет The Neuron — об экономике ИИ-инструментов в компаниях (материал Axios):

  • Одна компания сожгла $500 млн за один месяц — не на грандиозный проект, а потому что забыла поставить лимиты расходов на лицензии сотрудников.
  • Uber исчерпал годовой бюджет на Claude Code уже к апрелю; COO компании назвал ИИ-расходы «всё труднее оправдываемыми».
  • Amazon свернул внутренний лидерборд использования ИИ: сотрудники начали гнаться за количеством токенов вместо результата.
  • Самая показательная цифра: топовые пользователи Claude Code тратят примерно в 10 раз больше токенов, чем средние, а выработка у них выше лишь в ~2 раза. Шутка The Neuron: «новый рабочий флекс — пользоваться ИИ так хорошо, чтобы CFO не выучил твоё имя».

Мораль для практиков: следить за соотношением «токены/результат» — такой же навык, как промптинг. Эскалируйте модель и уровень усилия только там, где это реально меняет качество.

Коротко: остальные новости суток

  • Anthropic подтвердила, что модели класса Claude Mythos выйдут в публичный доступ «в ближайшие недели» — это её самый мощный класс моделей.
  • Dell повысила годовой прогноз по ИИ-серверам до $60 млрд на фоне инфраструктурной гонки Big Tech на $700 млрд; TSMC заявляет, что новым узким местом становится энергоэффективность.
  • Из инструментов недели у The Neuron: OpenHuman — локальное хранилище до 1 млрд токенов личной памяти (почта, заметки, календарь, Git) для подключения к агентам, и медиагенератор, встраиваемый прямо в Claude/ChatGPT/Cursor.

Источники

Откомментируйте первым 👇

😎

Автор поста открыл его для большого интернета, но комментирование и движухи доступны только участникам Клуба

Что вообще здесь происходит?


Войти  или  Вступить в Клуб