Однооборотный тест Тьюринга

Тест Тьюринга был невероятно известным показателем для оценки и получения представления о том, как на самом деле будет выглядеть ИИ, но по мере того, как мы приближаемся к горизонту и с тем, насколько эффективными могут быть большие языковые модели в реальных сценариях жизни, мы возвращаемся назад. снова в 1950-е годы, когда в тестах Тьюринга говорится:

Тест предназначен для определения того, может ли машина достаточно хорошо имитировать реакции человека, чтобы человек-судья не мог надежно отличить машину от другого человека, основываясь исключительно на содержании их ответов.

Вариант этого теста, известный как Тест Тьюринга с однооборотным диалогом, появился для оценки производительности машины более сжатым и сфокусированным образом. Главная загвоздка здесь в том, что разговор между машиной и человеком присутствует в едином изолированном обмене диалогами. В этом тесте судья-человек взаимодействует с помощью текста как с машиной, так и с другим участником-человеком, не зная, кто есть кто. Как следует из названия, судья (человек) только один раз обменивается данными с машиной и респондентом, после чего оценивается ответ. Выглядит просто, правда? Это!

Преимущества

Простота.Не требуется текст исследования, не требуется книга. Я мог бы объяснить это в одной строке, и все! Он предоставляет очень простой способ оценить производительность модели на основе чата. Я считаю, что у этого есть ограничения, но давайте подождем, пока веселье закончится 😝

Практично.В тех случаях, когда чат-бот просто должен имитировать людей и является стандартным бизнес-приложением, таким как обслуживание, страхование, гарантия и т. д. Для этого не требуются современные возможности. Так наверное взять поменьше более полезную для сценария модель?

Ограничения

Только поверхностные. С учетом того, что сейчас у нас есть замечательные LLM, можно с уверенностью сказать, что все эти текстовые модели взаимодействия уже соответствуют этому тесту. Таким образом, к этим моделям применимы более надежные методы оценки.

Производительность и понимание:Понимает ли он мою проблему или просто очень вежлив, как человек, но не отвечает на мой вопрос? Этот тест не может объяснить тонкости ответа.

Что дальше?

Некоторые другие более стандартные показатели оценки:

БЛЕУ Оценка
недоумение

Одно интересное чтение может быть: Перевернутый тест Тьюринга

материалы по теме:

Новые материалы

Примеры использования командной строки Laravel Artisan 2020

Платформа Laravel предоставляет три основных инструмента для взаимодействия через командную строку, а именно: Artisan, Ticker и REPL . В этой главе подробно рассказывается о Artisan...

Что такое визуализация данных?

Визуализация данных в машинном обучении и науке о данных Визуализация данных — очень важная тема в машинном обучении и науке о данных. Визуализация данных, как следует из названия,..

Генерация взрывов с помощью Python

Объяснение генераторов Python и комбинаторного взрыва Я рад показать вам весь новый мир генераторов на Python и, надеюсь, привнесу немного математики во все ваши жизни (потому что каждому всегда..

8 советов и рекомендаций по работе с большими наборами данных в машинном обучении

Основное руководство по оптимизации памяти и кода Pandas и Scikit-learn - популярные библиотеки в сообществе специалистов по науке о данных, поскольку они обладают высокой производительностью..

«Может ли ИИ произвести революцию в бизнес-аналитике? Изучаем ключевые тенденции и трансформации»

Бизнес-аналитика (BI) и искусственный интеллект (ИИ) все чаще переплетаются в современном бизнес-ландшафте. Как мы подчеркиваем в нашем блоге, использование возможностей искусственного..

Метод массива push() | Метод массива JavaScript

=> Метод push() добавляет новый элемент в массив (в конец) => Метод push() возвращает новую длину массива Пример: // Consider an array of Fruits var fruits = ["Banana", "Orange", "Apple",..

Драйверы перемен в мире бухгалтерского учета

Спустя две с половиной тысячи лет после того, как Гераклит заявил, что «единственная константа в этом мире — это изменение», его слова по-прежнему звучат правдоподобно, поскольку интенсивность..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Python Software Development Coding Deep Learning AI React Software Engineering Nodejs Front End Development Typescript Computer Science Java Development Algorithms Javascript Tips NLP Angular HTML Python Programming Developer Tech ChatGPT Programming Languages Data Visualization API Reactjs CSS Data Neural Networks Code Tutorial Computer Vision Productivity