Развитие компьютерных технологий и алгоритмов обработки информации позволяют иногда значительно облегчить работу юристов. Особенно это касается работы с большими неструктурированными объемами данных. "Право.Ru" рассказывает о технологии предиктивного кодирования (predictive coding), изначально придуманной для облегчения подготовки к сложным гражданским процессам, обычно сопряженной с последовательным просмотром большого количества, до сотен тысяч, документов, чтобы выделить из них полезные для данного дела.
Что это за технология и зачем она нужна?
В общем виде предиктивное кодирование (ПК) — это процесс изучения документов с помощью вычислительной техники. В процессе используются алгоритмы идентификации, анализа, сортировки и приоритизации документов, результатом является организованный набор документов, интересующих пользователя, сформированный и отсортированный в соответствии с заданными им параметрами.
Эта технология позволяет значительно ускорить и удешевить анализ больших объемов данных; особенно она полезна для сложных гражданских делах. Однако на сегодняшний день эта технология пока не может полностью заменить человека.
Кому и какую пользу она приносит?
Участникам процесса — тем, кто заказывает юридические услуги, и тем, кто их предоставляет. Во-первых, в сложных делах каждый день, прошедший до принятия судом решения по делу, может дорого стоить как истцу, так и ответчику, в прямом и переносном смысле слова. Анализ документов с помощью ПК занимает в 4-10 раз меньше времени, в зависимости от объема коллекции и состава документов. В общей цене работы с документами стоимость ручного анализа и сортировки составляет в среднем около 70% (сбор и первичная обработка — 8% и 19%, соответственно). Использование предиктивного кодирования может сэкономить до 70% денежных расходов и до 80% затрат времени по этой статье.
Как это работает?
В начале эксперты создают и сами обрабатывают небольшой набор документов разной степени полезности. На основе этого набора алгоритмы, используемые программным обеспечением, "самообучаются" — программа анализирует их по доступным ей параметрам и создает математическую модель. Предиктивное кодирование — итеративным процессом: результаты первой итерации просматривает человек, указывая, какие документы и в какой степени соответствуют поставленной задаче. После этого цикл повторяется — программа вновь ищет по учебному набору, но уже вооруженная уточненными параметрами, результаты вновь проверяются и так далее, пока алгоритмы не научатся с высокой степенью точности определять нужные документы. Только после этого запускается поиск по всей коллекции документов. В некотором смысле процесс подобен поиску пресловутой иголки в стоге сена, с той разницей, что необходимо сперва как можно точнее описать для компьютера, как выглядит иголка; а компьютер уже быстро перебирает стог по соломинке.
Принципиальное отличие этой технологии от предшествующих — способность адаптироваться. Традиционная технология базируется на частотном поиске по ключевым словам, что заведомо ограничивает объем найденного и качество сортировки. Предиктивное кодирование принимает во внимание также тип документа, язык, содержание, участвующих акторов, временные рамки и т.п. Чрезвычайно важно, чтобы с программным обеспечением работали эксперты, разбирающиеся в деталях интересующего заказчика дела — качество тестового комплекта документов и "обучения" алгоритмов определяет эффективность применения технологии.
Будущее технологии и связанные с ней проблемы
В обозримом будущем будет расширяться сфера использования ПК. Поначалу технология в основном применялась в гражданских процессах, однако все чаще использует в других сферах, в первую очередь, в делах, связанных со слияниями и поглощениями.
При использовании ПК возникает и ряд вопросов юридического свойства. Когда суд требует относящиеся к делу документы, необходимо осуществить "поиск в разумных пределах" — может ли суд считать, что предиктивное кодирование удовлетворяет этим требованиям? В феврале 2012 года судья Эндрю Пек из США стал первым, кто официально признал выборку по методу предиктивного кодирования в суде (в деле Monique Da Silva Moore v. Publicis Group & MSL Group), но пока немногие следуют его примеру. По всей видимости, по мере развития технологии ее официально использование будет распространяться.
Далее, остается вечная проблема конфиденциальности. Как фирма может гарантировать тайну общения адвоката и клиента, когда документы оказываются в доступности для посторонних специалистов? Та же проблема существует и в случае традиционного анализа всех документов вручную. Пока прецедентов злоупотреблений этим инструментом нет, но очевидно, что проблема, по крайней мере потенциально, существует.
С другой стороны, апологеты технологии утверждают, что уже сейчас она более эффективна, чем ручной поиск, не только с точки зрения затрат времени и денег, но — самое главное — качества результатов. Считается, что ручной просмотр в среднем позволяет найти около 60% нужных документов, а компьютерные алгоритмы — 77%.
В деле против Dulles Jet Center, владельца рухнувших под тяжестью снега ангаров, где хранились дорогостоящие частные самолеты, необходимо было изучить 1,3 млн документов. Группа экспертов взяла образец из 5000 документов, обработала их, как описано выше, и в результате поиск по всему массиву выдал 173 000 потенциально релевантных бумаг. Затем 400 из них были проверены вручную, и оказалось, что 80% из них действительно относились к сути дела. Затем та же группа проверила часть документов, отвергнутых программой — лишь 2,9% из них могли оказаться полезными. Иными словами, программа обнаружила 81% нужных документов — это очень хороший результат по всем стандартам.