Самый дешёвый ИИ в тесте обошёл самого дорогого в 27 раз — и побеждал чаще. Урок не про игру, а про твой счёт за токены: модель с вершины бенчмарков не всегда та, что нужна задаче. А ещё сегодня — как собрать личного советника прямо в Claude Code. И зачем Anthropic выпустила бесплатный 36-страничный план: как строить стартап почти в одиночку.
Главное за 30 секунд
- Личный AI-советник собирается из четырёх текстовых файлов и одного скилла — готовый SKILL.md внутри.
- В «королевской битве» дешёвый Grok победил дорогой Claude в 27 раз по цене за победу.
- Anthropic выложила бесплатный план на 36 страниц, как строить ИИ-стартап почти в одиночку.
- Anthropic поставила на паузу новый платный тариф для Claude Agent SDK после волны жалоб.
- Два свежих опенсорс-моста дают ChatGPT работать прямо в твоём локальном репозитории.
Внедряем и улучшаем
AI-советник по жизни и карьере — за 13 минут в Claude Code
Собери себе личного советника из четырёх текстовых файлов. Питер Янг (автор Creator Economy) показал, как превратить Claude Code или Codex в советника по большим решениям. Он сам «разговаривал» с ним больше трёх месяцев, прежде чем уйти с работы. Совет, который тот выдал: «Твоё решение — психологическое. Оно про то, чтобы отпустить человека, которым ты был десять лет».
Вся механика — одна папка /advisor с четырьмя файлами. SKILL.md — как советовать. plan.md — твои цели, принципы, силы, бизнес и контекст жизни. learnings.md — выводы из прошлых разговоров, это память. eval.md — чек-лист, что проверить перед советом.
Ключевая мысль: в SKILL.md НЕ кладут личные данные о себе. Там только роль, что читать и как отвечать. Личное живёт в plan.md и learnings.md. Готовый SKILL.md можно скопировать дословно:
---
name: advisor
description: Personal life advisor that gives honest advice based on your personal plan. Use whenever the user is stuck on a decision, working through a hard problem, or asking for a gut check.
---
You are my trusted life and business advisor.
Give specific advice based on my Plan doc and my question. Keep your tone warm and direct, like a friend who knows me well.
Before answering anything important, read:
Plan: My evergreen goals, principles, energy, and more.
Learnings: Dated journal entries, newest at the top.
Research: Background notes and outside research.
When advising:
Open by reflecting what you see.
Separate facts from assumptions.
Give 2-3 concrete suggestions.
Look for connections across work, money, energy, and family.
Push back when you see a real hole.
Keep it concise.
After meaningful conversations, if we made a decision, found a new constraint, or changed how I'm thinking, draft a short dated entry for Learnings.
Дальше заполняешь plan.md — свои цели и контекст. А learnings.md советник дописывает сам после важных разговоров: короткой датированной записью. Полный разбор трёх остальных файлов и чек-лист eval.md — в видео и статье (Creator Economy).

Дешёвый Grok побил дорогой Claude в 27 раз — и вот что с этим делать
Бенчмарк не предсказывает, кто выиграет твою задачу. OpenRouter бросил 11 моделей в 2D-«королевскую битву» и прогнал 30 игр подряд. Победил Grok 4.1 Fast: 13 побед, цена $0.97 за победу. Следующий по победам — Claude Sonnet 4.6: 5 побед, но $26.78 за победу. Разница в цене — 27 раз.
Что любопытно: больше всех убийств набрал GPT 5.4 (38 фрагов), а побеждал реже. Очки дают за выживание в финальном круге, не за фраги. А Claude чаще всех предлагал перемирие и раскрывал свою позицию. Эта «вежливость» из обучения стоила ему очков — но только в игре без последствий.
Вывод для практика прямой. Модель с вершины бенчмарков — не всегда та, что нужна задаче. Подбирай метрику под задачу: цена-за-фраг и цена-за-победу дают разные рейтинги в одном и том же мире. Дешёвая-быстрая часто бьёт дорогую-умную по эффективности. Но дешёвая, которая ПРОВАЛИТ задачу, выйдет дороже умной, что её решит. А за пределами игры та самая осторожность Claude и нужна — когда у ошибок есть цена. (OpenRouter)
Стартап-плейбук от Anthropic: как строить почти в одиночку
Anthropic выложила бесплатный план на 36 страниц — как собрать ИИ-стартап силами одного человека. Тезис: строить стало почти бесплатно и мгновенно. Поэтому опасность теперь не «что ты можешь построить», а «что ты выбираешь строить». Главная ловушка — масштабировать исполнение раньше, чем проверил спрос. 42% стартапов гибнут, делая то, что никому не нужно.
Роль основателя меняется: из исполнителя — в «дирижёра агентов». План разбит на четыре стадии: Идея → MVP → Запуск → Масштаб. Самое полезное — конкретные приёмы, которые работают с любым ИИ, не только с Claude:
- Спорь сам с собой. Проси модель найти доводы ПРОТИВ твоей идеи и за конкурента. «Уверенность теперь приходит с поисковым движком» — подтверждение легко найти, опровержение полезнее.
- Архитектуру — до кода. Опиши её в CLAUDE.md как постоянную «память» проекта. Цель — кодовая база, структуру которой ты можешь объяснить, а не та, что просто работает.
- Документ объёма — до фичи. Что фича делает, чего НЕ делает и какое подтверждение от пользователей оправдает её добавление.
- Тест Шона Эллиса. Спроси активных пользователей: «Как себя почувствуешь, если продукт исчезнет?» Больше 40% «очень расстроюсь» — сигнал попадания в рынок (product-market fit).
- Ров — через крайние случаи. Найди один кейс, где универсальный конкурент ошибается, и сделай под него тест. «Твой набор тестов становится картой твоего рва».
Приём «ведущее слово»: одна фраза вместо длинной инструкции
Найди фразу, которая заставит модель инструктировать саму себя. Мэтт Покок принёс из теории литературы приём leitwort — «ведущее слово». Это фраза, которую агент повторяет и держит как принцип работы. Повторишь её в скилле два-три раза — и модель начинает ссылаться на неё в собственных рассуждениях.
Пример: его скилл /teach опирается на фразу «зона ближайшего развития» — состояние, где ученику сложно, но не невыносимо. Готовый каркас промпта:
Use [Your LEITWORT here] as your operating principle for this task.
By [Your LEITWORT here], I mean: [simple definition of the behavior you want].
Apply that principle while you work. Before giving the final answer, check whether the output follows [LEITWORT] and revise once if needed.
Task: [paste your task here]
Context: [paste relevant context here]
Output format: [describe the format you want]
Суть: хороший промпт — не всегда больше инструкций. Иногда это одна точная фраза, которая сжимает всё нужное поведение в ручку. И модель держится за неё сама. (Matt Pocock)
Кейс: Claude срезал разбор тикетов с 25 минут до 2
Возьми одну рутину, которую команда делает 20+ раз в неделю, — и отдай её ИИ. IT-провайдер Triton тратил 20–25 минут на каждый тикет: прочитать, определить тип работы, прикинуть время, найти статьи базы знаний, назначить инженера. При 100 тикетах в неделю — это 33–42 часа неоплачиваемой работы.
Они собрали на Claude систему триажа. Время на тикет упало с 20–25 минут до 2. Экономия — $49 400 в год. Система сама прикидывает время, показывает топ-3 нужных статьи, помечает инженеров с повторными провалами и строит маршрут в Google Maps с пробками.
Главное — отдача пришла не от шаблонов, а от истории. Claude проанализировал 45 дней прошлых тикетов и научился отличать «костыль» от настоящего решения. Оценки времени он брал из реальных данных. Приём «укради это»: ищи задачу-пожиратель времени с предсказуемым шаблоном — прочитать, разметить, направить, ответить. Начинай с пожирателя времени, а не с лёгкой победы. (Triton case study)
Никогда не теряй токен: вынеси соединение из падающего процесса
Если агент падает посреди генерации, ты теряешь не только место — ты теряешь деньги. Сунил Пай (Cloudflare) объясняет механику. Токены тарифицируются в момент генерации. Связь с моделью живёт в памяти упавшего процесса. После рестарта остаётся только позвать модель заново — и заплатить за те же токены второй раз.
В реальном агенте один ход — это много вызовов инструментов. Любой обрыв выкидывает все токены, сгенерированные за этот ход. На флагмане — $30 за миллион токенов против $2 у «мини», так что повторный прогон жжёт в 15 раз больше.
Лечится так: вынеси соединение наружу — в отдельный долгоживущий буфер, который не переразворачивается вместе с кодом агента. Буфер фоновой задачей качает поток от модели в свою базу (SQLite), и этой задачи никто не ждёт. Процесс агента умер — а токены продолжают капать в базу. На рестарте агент просит /resume?from=N и забирает пропущенное. Ни повтора, ни двойного счёта. (Sunil Pai)
Локальный Qwen — не «дешёвый Opus», а другой инструмент
Не давай локальной модели долгие задачи без присмотра — там она ломается. Алекс Эллис на практике развенчивает миф «локальный Qwen почти как Opus». На SWE-Bench Qwen 3.6 27B даёт 77.2, Opus 4.8 — 88.6, и на не-Python коде разрыв шире. У передовых моделей 0.5–2 триллиона параметров против ~27 миллиардов у локальной. Разница видна сразу — на ревью кода.
Но локальная зарабатывает на другой оси: приватность и фиксированная цена. Прогнать данные клиента через офлайн-модель в одноразовой VM. Чинить хорошо очерченные баги. Быстро читать и объяснять чужой код — это «суперсила, даже если сама писать не умеет». Один раз такая связка нашла, что клиент год недоплачивал в 4–5 раз, — и окупила видеокарту.
Где ломается: долгие агентные задачи; авто-ревью — Qwen игнорировал «будь краток» и выдумывал гонки данных; интерпретация вместо анализа — принял 27.3K за 273 000. Железо у автора — одна RTX 6000 Pro Blackwell, 96 ГБ, ~$12–15К, 600 Вт. Совет: гоняй одну и ту же задачу и локально, и в облаке — так калибруешь, чему верить. (Alex Ellis)

ИИ требует больше дисциплины, а не меньше
Код перестал быть ценным активом — теперь это «кэш понимания». Чарити Мейджорс спорит с модой «ИИ пишет код, можно расслабиться». С осени 2025 модели пишут код примерно как средний инженер — дёшево и мгновенно. Раз код легко перегенерировать, он стал расходником: «материализованным представлением понимания, полезным, пока свежо».
Отсюда парадокс: недетерминированные ИИ-системы требуют БОЛЬШЕ инженерной строгости, а не меньше. Только строгость переезжает — с написания кода на проверку поведения. Инструменты для этого давно есть у эксплуатации: трейсы, тесты и эвалы в проде, характеризационные тесты, запись-воспроизведение, наблюдаемость.
Проверка «удаления»: представь, что стёр всю реализацию. Не можешь перегенерировать — значит, не понимаешь её. Это пробелы в понимании, а не в коде. Вчера мы давали цифры на ту же тему (Эдди Османи: ревью выросло на 441%) — это и есть теория под ними. (Charity Majors)
Гайд: разбор акций через Perplexity Finance — бесплатно
Преврати браузер Perplexity в инструмент для анализа акций — по шагам. Туториал The Rundown. Шаги:
- Скачай десктоп-браузер Comet от Perplexity. Открой вкладку и нажми «Finance».
- Жми «Screener» для идей. Пиши обычным языком и держи первый запрос широким — строгие фильтры срываются. Пример: «Find energy stocks with low PE ratios».
- Открой тикер. «Overview» — быстро глянуть новости и аргументы за/против. «Financials» — отчётность, «Earnings» — итоги звонков, «Analysis» — цели аналитиков.
- Задавай уточнения через кнопку ассистента Comet справа вверху, а не через нижний чат — тот прячет данные по акции.
- Промпт: «Explain the stock move today in plain English. What are the most likely drivers, and what sources support each one?» Кликай источники и проверяй даты.
Дальше — алерты по цене и встроенный список наблюдения; через Plaid можно подключить брокерский счёт для анализа портфеля. (The Rundown)
Инструменты и штуки
eve — фреймворк Vercel для долгоживущих агентов. Свежий опенсорс от Vercel (Apache-2.0): агента строишь через файлы, а не через код. Возможности живут в понятных папках — instructions.md (системный промпт), tools/ (типизированные функции на Zod), skills/, channels/ (HTTP/Slack/Discord), schedules/ (cron). Ставится одной командой npx eve@latest init my-agent, модель задаёшь декларативно. За два дня после релиза — ~930 звёзд; пока beta. (github)
ChatGPT работает в твоём локальном репозитории — DevSpace и CodexPro. Два свежих опенсорс-моста (оба MIT), появились с разницей в пару дней. Поднимают MCP-сервер у тебя на машине и через защищённый туннель отдают ChatGPT доступ к выбранным папкам: читать, править, искать, запускать тесты и git. Код не уходит на сторону — остаётся локально, под токеном или паролем. DevSpace (TypeScript) делает упор на git-worktrees для параллельных сессий. CodexPro (JavaScript) ставится одной командой и умеет передавать задачу отдельному локальному агенту. (DevSpace, CodexPro)

TREX (Greptile) — ИИ-ревьюер, который запускает твой код. Обычный ИИ-ревьюер читает дифф. TREX исполняет код в одноразовой песочнице и ловит баги, видимые только в рантайме: гонки данных, регрессии интерфейса, логику, требующую конкретной последовательности состояний. Главный агент-оркестратор находит подозрительные места и под каждое поднимает параллельного суб-агента TREX. Каждую находку подтверждает артефактами — скриншоты, логи, трейсы, даже видео. (Greptile)

MDN MCP server — свежие доки MDN прямо в редакторе. Бесплатный MCP-сервер от Mozilla отдаёт кодинг-агентам актуальную документацию MDN и данные о совместимости браузеров — в VS Code, Cursor, Claude Code. Меньше галлюцинаций про веб-API. (MDN)
UI Skills — навыки дизайна для агентов. Каталог готовых скиллов по фронтенд-полировке: доступность, анимации, аккуратная вёрстка — для Codex, Cursor, Claude Code. Бесплатно, ставится через CLI. (UI Skills)
Firecrawl — соскоб сайта в чистый markdown. Ищет, скрейпит, ходит по страницам и превращает PDF в чистый markdown. API-ключ не нужен, пока не вырастешь в объёмах. (Firecrawl)
Exa Agent — ресёрч и обогащение данных одним API. Глубокий поиск, сбор списков, обогащение по сущностям и ресёрч компаний со структурированным выводом. Цена по усилию: от $0.012 до $1 за запрос. (Exa)
Grok в PowerPoint — слайды из промпта. Аддин xAI собирает презентации, диаграммы, картинки и связанные с данными слайды прямо в Microsoft 365. Бесплатно, нужен Microsoft 365. (xAI)
Framer 3.0 — агенты строят сайт целиком. ИИ-агенты делают страницы, правят CMS, занимаются SEO, адаптивностью и аналитикой; «ветки» — для безопасных экспериментов. Есть бесплатный план. (Framer)
NoteRich — приватные заметки с ИИ. Заметки лежат локально, ИИ-функции — короткие эфемерные облачные вызовы. Суммирует и отвечает по заметкам, не выгружая весь архив; синхронизация — шифрованная p2p. Есть бесплатный план. (NoteRich)
Verid — следит за изменениями страниц. API-сервис мониторинга: опиши нужное поле обычным языком, и слежка переживёт смену вёрстки. Следит за падением цен, возвратами в наличие, новыми версиями — без своего скрейпера. Алерты идут в Slack, Discord, почту или вебхук. (Verid)
Агентные IDE: Polypore и Junction. Polypore — десктоп-IDE, где агент главный актёр: докуемые панели, встроенный MCP-сервер для управления редактором, 15 слеш-команд (MIT). Junction — сайдбар-чат в VS Code, подключает локальных агентов (OpenClaw, Hermes, Goose, OpenCode и др.) через единый интерфейс. Оба свежие и быстро набрали звёзды. (Polypore, Junction)
CADAM — текст и картинка в 3D-модель. Опенсорс-CAD в браузере от YC-стартапа Adam: из промпта или фото собирает параметрическую 3D-модель, размеры выносит в ползунки, экспорт в STL/SCAD/DXF. Работает на OpenSCAD в WebAssembly, построен на Claude. GPLv3, ~4300 звёзд. Демо — adam.new/cadam. (github)

Boogu-Image — открытая модель генерации и правки картинок. Семейство 10B-моделей под Apache-2.0: текст-в-картинку с плотным двуязычным текстом, быстрый 4-шаговый Turbo и редактор картинок. Заявлен запуск на потребительских GPU (12 ГБ с offload + fp8). Самохостимая альтернатива закрытым генераторам. (github)
Новости и тренды
Anthropic поставила на паузу платный тариф для Claude Agent SDK. Месяц назад Anthropic анонсировала, что использование Claude Agent SDK будет считаться отдельно от обычного. Прямо перед вступлением в силу откатила — после волны жалоб тяжёлых пользователей. Теперь использование вне SDK снова тарифицируется по обычным API-расценкам. Что это значит: если строишь на подписке Claude, это передышка. И сигнал, что обратная связь до Anthropic доходит. (Ars Technica)
Android 17: MCP приходит в телефон. Google добавил AppFunctions и «Android MCP» — приложения выставляют инструменты, которые локальный агент на устройстве находит и запускает. По сути MCP-сервер, но мобильный: приложение = набор инструментов для агента в кармане. Что это значит: скоро агенты будут дёргать твои приложения сами, без ручных тапов — и под это стоит думать дизайн своих сервисов. (Google)
Microsoft Copilot Cowork — глобально и по факту использования. Агент Microsoft, выполняющий многошаговые задачи через приложения M365, вышел из беты в общий доступ. Тариф — по потреблению, с лимитами трат, отчётами и выбором модели. Что это значит: «агент-сотрудник» в офисном пакете теперь у миллионов — конкуренция за рутину белых воротничков обостряется. (Microsoft)
Ноам Шазир уходит из Google в OpenAI. Сооснователь Gemini и соавтор статьи «Attention Is All You Need» — той самой, что дала миру трансформер — переходит в OpenAI. Меньше двух лет назад Google заплатил ~$2,7 млрд, чтобы вернуть его из Character.AI. Что это значит: война за топ-таланты в разгаре. Куда уходят люди такого калибра — туда стоит смотреть, чтобы понять темп на год-два вперёд. (Reuters)
США тянут с чёрным списком DeepSeek. Вашингтон воздержался от внесения DeepSeek и 100+ компаний в торговый чёрный список, чтобы не злить Пекин, — хотя комиссия одобрила это ещё год назад. По расследованию, DeepSeek пытался через подставные фирмы добраться до передовых чипов, а Anthropic фиксировала попытки «вытянуть» возможности из Claude. Что это значит: доступность китайских моделей и железа висит на политике и может измениться в любой момент — закладывай регуляторный риск. (Reuters)
GLM-5.2 — теперь №1 среди открытых моделей. О релизе мы писали ранее на неделе; новое — независимый рейтинг Artificial Analysis поставил GLM-5.2 на первое место среди open-weights. Окно 1 млн токенов, лицензия MIT, цена как у прошлой версии — доля от стоимости топовых закрытых. Что это значит: сильная открытая модель за копейки давит на цены — повод пересмотреть, за что ты платишь за топовые закрытые. (Artificial Analysis)
Cursor строит Origin и тизерит Composer 3. Про покупку Cursor компанией SpaceX за $60 млрд мы писали 17 июня. Развитие: Cursor показал Origin — конкурента GitHub, заточенного под параллельную работу множества агентов, и тизернул модель Composer 3 (по слухам, 1,5 трлн параметров). Что это значит: гонка смещается от «ассистента в редакторе» к платформе, где код пишут и ревьюят рои агентов. (Cursor)
Общество устало от ИИ-хайпа. Два свежих опроса в США бьют в одну точку. 60% потребителей считают слово «ИИ» в рекламе минусом, а 61% не могут назвать ни один бренд, что использует ИИ с пользой. И только 16% американцев ждут от ИИ пользы для общества (Pew), против 40% ждущих вреда. Что это значит: лепить «AI-powered» на баннер — антипаттерн. Показывай конкретную пользу, а не аббревиатуру; продукты, снимающие тревогу (прозрачность, контроль), сейчас в выигрыше. (wpvip, Pew/TechCrunch)
Midjourney уходит в медтех. Генератор картинок анонсировал полнотельный ультразвуковой сканер за 60 секунд — без радиации, только звук и вода. А ещё спа в Сан-Франциско к концу 2027-го: сканов в год там будет больше, чем у всех МРТ Земли. Цель — ~50 000 сканеров за 6 лет. Что это значит: ИИ-компании монетизируют экспертизу в обработке изображений за пределами софта — границы «ИИ-бизнеса» уходят в физический мир. (Midjourney)
Рекурсивное самоулучшение: что нового после Anthropic. Тему «ИИ строит ИИ» мы разбирали 6 июня. Turing Post добавил два конкретных проекта. Recursive автоматизирует весь исследовательский цикл и срезал рекорд обучения NanoGPT с 79,7 до 77,5 секунды. Sakana открыла отдельную RSI-лабораторию под девизом «прогресс через лучшие циклы, а не больше вычислений». Полезное уточнение: самоулучшающиеся агенты ≠ RSI — они правят свой рабочий процесс, а не сам процесс постройки модели. Что это значит: настоящее «ИИ строит ИИ» пока не наступило — чаще это автоматизация рутины обучения, а не самоперепись модели. (Turing Post)
Коротко.
- «Токеномия»: AT&T начала тормозить ИИ-использование сотрудников — прирост продуктивности приходит с реальным счётом за токены. (The Information)
- CoreWeave обучила DeepSeek-V3 (671B) за ~2 минуты на 8192 GB300 — новый рекорд MLPerf. (CoreWeave)
- Крошечная VibeThinker-3B показала на кодинге результаты уровня Opus — и снова разожгла спор о валидности бенчмарков. (VentureBeat)
- Trump-администрация отказала Стармеру вывести страны G7 из-под бана на топ-модели Anthropic — развитие истории с экспортом, о которой писали 16–17 июня. (NY Post)