Юристы выбирают не тот ИИ: как работает автоматизированный арбитраж

Юристы выбирают не тот ИИ: как работает автоматизированный арбитраж
Иллюстрация: recraft.ai

Летом группа ученых из Гарвардского и Чикагского университетов выпустила статью, в которой сделала вывод, что генеративный ИИ плохо подходит на роль «судей» в юридической сфере, потому что его ответы сильно зависят от формулировки вопроса. Решение они видят в классификаторах на базе ИИ — такие системы дают консистентные ответы и не «галлюцинируют».

Эксперимент Джонатана Чоя

Способность больших языковых моделей (БЯМ) интерпретировать право проверяли не раз. И один из экспериментов в этом году провел профессор Джонатан Чой (Университет Южной Калифорнии).

Он постарался определить, как архитектурные приемы, которые используют в БЯМ, влияют на нестабильность в ответах. Сначала с помощью модели Claude 3.5 Sonnet он переформулировал юридические вопросы 2000 раз, а затем каждый из вариантов отправил в GPT-4o. Нейросеть была настроена так, чтобы она всегда отвечала одинаково на одинаковые вопросы, чтобы исключить случайные колебания в ответах. То есть единственным фактором, который влиял на ответ ИИ, была формулировка.

Чой взял пять юридических вопросов, построенных на реальных спорных ситуациях: 

  • о страховом покрытии при прорыве дамбы; 
  • юридической силе разных заявлений о разводе в брачном договоре; 
  • толковании фразы об аффилированных лицах в старом контракте;
  • порядке оплаты строительного договора; 
  • покрытии страхового случая при взломе с применением силы.

При этом во всех вариантах вопросов были одни и те же фактические данные, но менялась лексика, синтаксис и порядок предложений. Анализ 10 000 ответов GPT-4o показал сильные колебания в суждениях модели. Например, одно изменение формулировки поменяло 98,6%-ю уверенность ИИ в том, что «иные аффилированные лица» — это существующие компании, на 85,2%-ю уверенность в том, что речь о будущих компаниях.

Эти данные подтвердили: БЯМ очень чувствительны к формулировкам и ненадежны для вынесения юридически значимых решений без человеческого контроля.

Первый ИИ-арбитраж

Авторы статьи «БЯМ — плохие судьи. Поэтому используйте наш классификатор» — Джек Киффабер, Кимо Гандалл и Кенни Макларен (Гарвардская юридическая школа), Стивен М. Фостер-младший (Юридическая школа Чикагского университета) — уже в названии раскрывают свою симпатию к продукту и технологиям, на которых он построен.

Речь идет об Arbitrus.ai, который стартап Fortuna Arbitration вывел на рынок 3 февраля. Его основатели — как раз Гандалл и Макларен (компьютерные науки) и юрист Брайан Поттс.

По их словам, это первый полностью автоматизированный ИИ-арбитр, позиционирующий себя как альтернатива традиционному арбитражу для разрешения коммерческих споров. Стартап тестировал продукт на ста гипотетических сценариях и продемонстрировал нулевой уровень «галлюцинаций» (искажений) и полное покрытие всех ключевых вопросов. Продукт ориентирован на B2B-сегмент, но информации о публичных кейсах или крупных клиентах пока нет, вероятно, из-за политик конфиденциальности.

Платформа Arbitrus.ai предлагает такой порядок использования: в контракте прописывается арбитражная оговорка о разрешении споров через платформу, а в случае конфликта любая из сторон инициирует процедуру в системе. Туда можно загружать разные виды доказательств, включая видео- и фотосвидетельства. После обе стороны знакомятся с материалами, проводят расследование и загружают письменную позицию для рассмотрения системой. При необходимости ИИ может задать дополнительные вопросы и провести перекрестный допрос свидетелей. «Решение может быть принято всего за три дня после подачи всех доказательств и получения показаний. Для сравнения: у классических арбитров — 60–90 дней», — утверждают создатели платформы. Стоимость одного контракта — от $27,5. Решения платформы окончательные и обязательные для всех сторон, но, тем не менее, все решения дополнительно утверждает юрист-человек.

Не генератор, а классификатор

Классификатор — это инструмент, который группирует объекты по некоторому принципу. Формально большие языковые модели вроде ChatGPT тоже относятся к классификаторам, но там классифицируется не смысл, а последовательность символов по вероятности.

Arbitrus — тоже классификатор, но упорядочивает он факты и юридические исходы. Он смотрит, какие факты в тексте, изображении или звуке приводили к победам и поражениям в суде. А потом просто сопоставляет фактические шаблоны с судебными результатами. Система находит наиболее похожую ситуацию в своей базе и определяет, какой исход должен последовать. Это и есть аналогичное рассуждение, сведенное к распознаванию шаблонов. В статье также приводится технический разбор технологии.

Системе предложили вопросы Чоя, и на все 150 вопросов Arbitrus дал единообразные ответы, хотя конкретные обоснования могли незначительно отличаться. Это подтверждает, что на определенную комбинацию фактов он всегда выдавал один и тот же вывод без случайностей.

Но стабильность ответов еще не означает их правильность. В ответ исследователи и авторы продукта отмечают: «Ни в одном из 150 ответов Arbitrus не придумал несуществующее дело и ни разу не сослался на норму, которую не поддерживали приведенные решения».

Анастасия Артюхова, эксперт ИИ-направления компании «ПравоТех», соглашается, что даже в случае обучения большой языковой модели на релевантной юридической информации остаются риски «галлюцинаций» и использования классификаторов не лишено смысла. «Даже при обучении на актуальных данных сохраняется угроза: например, упущены нормы 1990-х годов, и это уже способно исказить выводы. При этом периодичность и полноту обновлений будет проблематично отследить», — предупреждает она. Артюхова рассказывает об одном из подходов, используемых в продукте «ПравоЗнания», — архитектура RAG (англ. retrieval augmented generation — «поиск расширенной генерации»). Модель ищет ответ в ограниченном массиве данных, а итог проверяет человек.

Это снижает нагрузку, но не отменяет необходимости профессионального участия, особенно в сложных спорах. Комбинация ИИ, классификатора и контроля специалиста сегодня остается единственно допустимой схемой — ни одна модель не заменяет экспертную юридическую интерпретацию.

Анастасия Артюхова, эксперт ИИ-направления ПравоТех

Подробнее о технологиях ИИ в юридической практике можно узнать на Форуме ПравоТех 25 сентября, регистрация — по ссылке.


Как Arbitrus прошел тесты Чоя

Пример № 1
Страховой случай — прорыв дамбы

Вывод Arbitrus: «Не покрывается» (все ответы стабильны).

Обоснование: в соответствии с делом Lexington Ins. Co. v. National Oilwell NOV (355 S.W.3d 205, Техас, 2011), если в страховом полисе прямо указано, что ущерб от наводнений или водных угроз не покрывается, то убытки от прорыва дамбы, скорее всего, не подлежат компенсации. Все зависит от точной формулировки полиса и обстоятельств проникновения воды в здание. Если исключение прописано четко, страховая может законно отказаться от выплат.

Пример № 2
Брачный договор — дата подачи заявления

Вывод Arbitrus: «Первая подача заявления считается определяющей».

Обоснование: в деле Stanley v. Riney (970 S.W.2d 636, Техас, 1998) суд указал, что дата первого заявления о разводе важна для определения продолжительности брака. Если в брачном договоре выплаты зависят от количества полных лет брака на момент подачи иска, то именно первая подача (даже если она потом была отозвана) должна быть определяющей для расчета выплат.

Пример № 3
Контракт 1961 года — «иные аффилированные лица»

Вывод Arbitrus: «Будущие аффилированные компании включаются».

Обоснование: в решении по делу Brent v. Field (Техас, 2008) указано, что контракты могут распространяться на будущих участников, если об этом говорит текст. Если формулировка договора допускает толкование «иные аффилированные лица» как потенциально будущие компании, то обязанность по распределению прибыли (50/50) будет распространяться и на них.

Пример № 4
Строительный договор — порядок платежей

Вывод Arbitrus: «Месячные платежи».

Обоснование: в деле Texas Westheimer Corp. v. 5647 Westheimer (68 S.W.3d 15, Техас, 2001) суд указал, что при двусмысленных формулировках контрактов можно опираться на деловую практику сторон. Выражение «в обычном порядке» можно трактовать как ежемесячные платежи, если это соответствует привычной практике в отрасли или предыдущим отношениям сторон.

Пример № 5
Страховой случай — кража со взломом

Вывод Arbitrus: «Не покрывается (если нет видимых следов взлома)».

Обоснование: дело Lexington Ins. Co. v. National Oilwell NOV вновь применяется. Так, если в полисе указано, что кража покрывается, только когда есть явные следы взлома, то их отсутствие может служить основанием для отказа в выплате. Все зависит от соблюдения условий, прописанных в страховом договоре.

Новости партнеров

На главную