
Новая система ConvApparel от Google Research оценивает и улучшает реализм в LLM-ориентированных симуляторах пользователей.
Google Research представила ConvApparel — новый набор данных для оценки "реализма" в симуляторах пользователей, основанных на больших языковых моделях (LLM). Эта система поможет улучшить работу разговорных агентов, позволяя им эффективнее справляться с повторяющимися задачами и взаимодействиями. Несмотря на свои способности, современные AI-агенты сталкиваются с проблемами при длительном взаимодействии, например, могут забывать условия общения или давать нерелевантные ответы. Хотя живые тесты считаются золотым стандартом, они слишком дороги и сложно масштабируемы. В связи с этим исследователи стали применять симуляторы пользователей, которые представляют собой LLM-агентов, имитирующих человеческое поведение. Однако у таких систем есть нюансы: многие из них демонстрируют атипичное поведение, что adversely влияет на взаимодействие с реальными пользователями.
ConvApparel помогает выявлять слабые места в существующих симуляторах пользователей и предлагает надежное решение для обучения AI-тестеров. Используя уникальный протокол сбора данных, исследователи анализируют взаимодействия с "хорошими" и "плохими" агентами, что дает полное представление о человеческом поведении. Проблема заключается в том, что многие симуляторы не отражают реальное человеческое взаимодействие, что может снизить эффективность разговорных агентов в реальных условиях, где пользователи могут быть недовольны. В ответ на эти вызовы была введена концепция контрфактической валидации, позволяющая оценить реакцию симулятора на неожиданные или стрессовые ситуации. Это улучшает понимание того, насколько реалистично симуляторы воспроизводят человеческое поведение.
ConvApparel открывает новые возможности для исследований в области AI, способствуя улучшению качества взаимодействий и делая их более адаптивными к новому контексту.
Источники
Ответы (0)
Пока нет ответов в этой теме.