Экзамен, который исследователи предложили обновленному ChatGPT, оценивает знания и мышление юриста и включает эссе и тесты, имитирующие работу юриста. Входят туда и вопросы с множественным выбором — нейросети удалось ответить правильно на 76% таких вопросов. Согласно результатам исследования, новая версия языковой модели позволила нейросети значительно превзойти как предыдущие версии самой себя, так и живых людей. Утверждается, что ChatGPT опредедил людей в пяти из семи предметных областей.
«При оценке по всем компонентам UBE [Uniform Bar Exam] — так, как это делал бы экзаменатор, — GPT-4 набирает приблизительно 297 баллов, что значительно превышает проходной порог для всех юрисдикций UBE», — рассказывают исследователи. По их мнению, такой результат говорит не только о быстром и значительном прогрессе в производительности больших языковых моделей в целом, но и о потенциале таких моделей для предоставления юридических услуг.
Один из авторов исследования Дэниел Мартин Кац в комментарии Reuters заявил, что больше всего удивился способности ChatGPT подготовить «в основном уместные и последовательные ответы на эссе и тесты». Национальная конференция экзаменаторов, которая проводит UBE, при этом утверждает: адвокаты обладают уникальными навыками, приобретенными благодаря образованию и опыту, с которыми ИИ в пока сравниться не может.
«Право.ru» тестировало ChatGPT на языковой модели текущего поколения GPT-3.5. Нейросеть перепутала нормы права и точно не сдала российский адвокатский экзамен (подробнее — «Как нейросеть ChatGPT сдавала экзамен на адвоката и писала юридические заключения»).