Тест Тьюринга был невероятно известным показателем для оценки и получения представления о том, как на самом деле будет выглядеть ИИ, но по мере того, как мы приближаемся к горизонту и с тем, насколько эффективными могут быть большие языковые модели в реальных сценариях жизни, мы возвращаемся назад. снова в 1950-е годы, когда в тестах Тьюринга говорится:

Тест предназначен для определения того, может ли машина достаточно хорошо имитировать реакции человека, чтобы человек-судья не мог надежно отличить машину от другого человека, основываясь исключительно на содержании их ответов.

Вариант этого теста, известный как Тест Тьюринга с однооборотным диалогом, появился для оценки производительности машины более сжатым и сфокусированным образом. Главная загвоздка здесь в том, что разговор между машиной и человеком присутствует в едином изолированном обмене диалогами. В этом тесте судья-человек взаимодействует с помощью текста как с машиной, так и с другим участником-человеком, не зная, кто есть кто. Как следует из названия, судья (человек) только один раз обменивается данными с машиной и респондентом, после чего оценивается ответ. Выглядит просто, правда? Это!

Преимущества

Простота.Не требуется текст исследования, не требуется книга. Я мог бы объяснить это в одной строке, и все! Он предоставляет очень простой способ оценить производительность модели на основе чата. Я считаю, что у этого есть ограничения, но давайте подождем, пока веселье закончится 😝

Практично.В тех случаях, когда чат-бот просто должен имитировать людей и является стандартным бизнес-приложением, таким как обслуживание, страхование, гарантия и т. д. Для этого не требуются современные возможности. Так наверное взять поменьше более полезную для сценария модель?

Ограничения

Только поверхностные. С учетом того, что сейчас у нас есть замечательные LLM, можно с уверенностью сказать, что все эти текстовые модели взаимодействия уже соответствуют этому тесту. Таким образом, к этим моделям применимы более надежные методы оценки.

Производительность и понимание:Понимает ли он мою проблему или просто очень вежлив, как человек, но не отвечает на мой вопрос? Этот тест не может объяснить тонкости ответа.

Что дальше?

Некоторые другие более стандартные показатели оценки:

  1. БЛЕУ Оценка
  2. недоумение

Одно интересное чтение может быть: Перевернутый тест Тьюринга