Слушать урок
Глава_14_Evals_и_проверка_результата.pdf
Mastering_AI_Evals.pdf
АІ-агент без проверки — это сотрудник без приёмки работы. Оценка результата "на глаз" не работает, потому что агенты отлично умеют писать гладкий текст, идеально структурировать ответ и убедительно придумывать факты. Впечатление не является качественной проверкой работы. Пока нет договоренности о четких правилах приемки результата, вы управляете надеждой, а не системой.
Нельзя проверять исключительно финальный текст, так как агент может прийти к нему опасным путем. У ИИ-агента существует четыре уровня оценки:
- Финальный ответ (Final Answer): Оценивается то, что именно написал агент, понятность результата для человека и отсутствие выдуманных фактов.
- Источники (Sources): Проверяется, откуда агент взял данные, опирался ли он на источники истины и не использовал ли устаревшие документы.
- Инструменты (Tools): Анализируется, какими программами пользовался агент и не совершил ли он необратимых действий (например, удаление или отправку) без подтверждения человека.
- Траектория (Trajectory): Оценивается весь пройденный путь, порядок действий и корректность остановок при нехватке данных. Если агент написал идеальное письмо, но самостоятельно отправил его клиенту в обход правила обязательного подтверждения (Approval), это считается опасным провалом.
Проверочные задачи (Evals) помогают понять, насколько система действительно справляется с порученной работой. Сначала необходимо решить, как выглядит хорошая работа, и лишь затем просить агента её выполнять.
Главная формула проверки состоит из следующих элементов:
Evals = Проверочный кейс + Ожидаемый результат + Рубрика оценки + Оценщик + Журнал ошибок.
…