Искусственный интеллект становится судьей: новые методы проверки фактов и программного кода
- Категория: AI Технологии
- Дата: 24 июля 2025 г. в 05:20
- Просмотров: 78
В мире искусственного интеллекта (ИИ) всё чаще используют большие языковые модели (LLM) для оценки ответов, сгенерированных другими LLM. Этот процесс получил название "LLM в качестве судьи". Однако, когда дело доходит до сложных задач, таких как проверка фактов в длинных текстах, экспертное программирование или математические вычисления, качество таких оценок оставляет желать лучшего.
Новое исследование, проведенное учеными из Кембриджского университета и Apple, предлагает решение: новую систему, которая расширяет возможности ИИ-судей, подключая внешние инструменты проверки. Это позволяет значительно повысить точность и надежность их "суждений".
Проблема: Как обеспечить беспристрастность и точность оценок, выдаваемых искусственным интеллектом?
Решение: Использовать внешние инструменты для проверки фактов и кода.
Как это работает?
Система, разработанная исследователями, представляет собой самообучающегося "агента оценки". Он анализирует ответы и определяет, когда необходимо подключить внешние инструменты для проверки. Процесс оценки состоит из трех основных этапов:
- Первоначальная оценка: Агент анализирует задачу и ответ.
- Использование инструментов: При необходимости агент задействует специализированные инструменты:
- Инструмент проверки фактов: Использует веб-поиск для проверки утверждений в тексте. Это как если бы у вас был под рукой Google, чтобы убедиться, что каждое предложение соответствует действительности.
- Инструмент выполнения кода: Использует интерпретатор кода OpenAI для запуска и анализа программного кода. Это позволяет проверить, правильно ли работает программа и нет ли в ней ошибок.
- Инструмент проверки математических операций: Специализированная версия инструмента выполнения кода, предназначенная для проверки математических расчетов.
- Принятие окончательного решения: Агент выносит окончательное суждение на основе первоначальной оценки и результатов проверки с помощью инструментов.
Важно отметить, что если задача простая и не требует использования внешних инструментов, агент ограничивается базовой LLM-аннотацией. Это позволяет избежать лишней обработки и сохранить производительность системы.
Что показали результаты?
Новая система показала впечатляющие результаты в задачах, требующих проверки фактов в длинных текстах. Она значительно лучше справлялась с этой задачей, чем предыдущие системы, и демонстрировала высокую согласованность с эталонными аннотациями (то есть, с оценками, сделанными экспертами).
В задачах кодирования подход на основе агентов также показал значительное улучшение производительности. В сложных математических задачах результаты были смешанными: агент превзошел некоторые базовые показатели, но общая согласованность оставалась на относительно невысоком уровне (около 56%).
Интересно, что в ответах с большим количеством фактических данных согласованность агента с эталоном была даже выше, чем у людей-аннотаторов. Это говорит о том, что ИИ может быть более объективным и точным при проверке больших объемов информации.
Самое главное, что эта система легко расширяется. В будущем можно будет добавлять новые инструменты для дальнейшего улучшения процесса оценки LLM.
Разработчики планируют выложить код системы в открытый доступ на GitHub Apple.
Мнение редакции MSReview:
Разработка Apple и Кембриджского университета – важный шаг вперед на пути к созданию надежных и точных систем на основе искусственного интеллекта. Интеграция внешних инструментов проверки в процесс оценки LLM позволяет значительно повысить качество "суждений", особенно в таких сложных областях, как проверка фактов и кодирование. Открытый исходный код этой системы будет способствовать дальнейшим исследованиям и инновациям в области оценки LLM, что в конечном итоге приведет к созданию более надежных и заслуживающих доверия ИИ-систем.
- Комментарии