Глава 14. Evals (Оценочные проверки) и проверка результата

Слушать урок

Глава_14_Evals_и_проверка_результата.pdf

Mastering_AI_Evals.pdf

Глава 14. Evals и проверка результата

АІ-агент без проверки — это сотрудник без приёмки работы. Оценка результата "на глаз" не работает, потому что агенты отлично умеют писать гладкий текст, идеально структурировать ответ и убедительно придумывать факты. Впечатление не является качественной проверкой работы. Пока нет договоренности о четких правилах приемки результата, вы управляете надеждой, а не системой.

Четыре уровня проверки агента

Нельзя проверять исключительно финальный текст, так как агент может прийти к нему опасным путем. У ИИ-агента существует четыре уровня оценки:

  • Финальный ответ (Final Answer): Оценивается то, что именно написал агент, понятность результата для человека и отсутствие выдуманных фактов.
  • Источники (Sources): Проверяется, откуда агент взял данные, опирался ли он на источники истины и не использовал ли устаревшие документы.
  • Инструменты (Tools): Анализируется, какими программами пользовался агент и не совершил ли он необратимых действий (например, удаление или отправку) без подтверждения человека.
  • Траектория (Trajectory): Оценивается весь пройденный путь, порядок действий и корректность остановок при нехватке данных. Если агент написал идеальное письмо, но самостоятельно отправил его клиенту в обход правила обязательного подтверждения (Approval), это считается опасным провалом.

Формула идеального экзамена (Evals)

Проверочные задачи (Evals) помогают понять, насколько система действительно справляется с порученной работой. Сначала необходимо решить, как выглядит хорошая работа, и лишь затем просить агента её выполнять.

Главная формула проверки состоит из следующих элементов:

Evals = Проверочный кейс + Ожидаемый результат + Рубрика оценки + Оценщик + Журнал ошибок.

🔒

Этот материал доступен участникам Клуба. Войдите или оформите доступ, чтобы читать целиком, открывать видео и комментировать.

Войти Вступить / купить доступ