В этом уроке разбирается методика объективной оценки качества ответов ИИ-агентов, работающих по технологии RAG (извлечение данных из векторных баз). Автор объясняет, почему сложно отлаживать ИИ-системы "на глаз" из-за обилия переменных (размер чанков, модели эмбеддингов, промпты) и демонстрирует, как настроить автоматический аудит ответов. Основной упор сделан на сравнение разных моделей (GPT-4o vs Claude 3.7) по точности, стоимости и скорости выполнения.
00:00–01:09 Проблемы оценки RAG-систем — Почему стандартные тесты не работают для сложного вывода и какие факторы влияют на результат.
01:10–02:05 Гипотезы и объективные проверки — Использование n8n для подтверждения того, работают ли ваши изменения в промптах или настройках базы данных.
02:06–03:41 Настройка ИИ-метрики точности — Как заставить одну модель проверять другую по шкале от 1 до 5.
03:42–05:14 Разбор промпта эвакуатора — Анализ системных инструкций для "эксперта-оценщика", который сравнивает ответ с "эталонной правдой".
05:15–07:18 Техническая отладка в n8n — Решение проблем с узлом метрик и создание кастомного агента-оценщика.
07:19–09:25 Сравнение моделей: GPT-4o vs Claude 3.7 — Наглядный анализ того, как смена модели влияет на точность, количество токенов и итоговую стоимость.