Comment la vitesse et la précision des références déforment la valeur réelle de l’IA légale
Bienvenue à l’époque de l’IA Superlative. Alors que les deux premières années de développement de l’intelligence artificielle générative (Genai) étaient un sprint total pour créer de nouveaux modèles, établir des solutions de preuve de concept et définir des cas d’utilisation optimaux, la phase suivante pour fournir une efficacité accrue et un meilleur produit de travail Les clients du cycle de vie de l’IA seront également dominés par le marketing.
Les réclamations de produits des résultats les plus rapides et les plus précis de grands langues (LLM) ou les résultats «sans hallucination» sont entrés sur le marché. Alors que de plus en plus d’entreprises développent des solutions d’IA et des start-ups recherchent des investissements en capital dans un domaine de plus en plus encombré, les clients chercheront des repères pour évaluer l’efficacité de ces outils. Pour que les repères soient précieux, ils doivent tester des problèmes réels auxquels les professionnels du droit sont confrontés et mesurer ce qui se soucie des clients.
Le défi est que les mesures unidimensionnelles n’offrent pas une représentation fiable de la valeur réelle du Genai dans le processus de recherche juridique. Aucun produit de recherche juridique basé sur LLM sur le marché aujourd’hui ne fournit des réponses avec une précision à 100%, les utilisateurs doivent donc s’engager dans un processus en deux étapes de 1) obtenir la réponse et 2) vérifier la réponse pour la précision.
C’est le résultat final de ce processus en deux étapes qui compte. L’analyse comparative d’une partie de ce processus ne fournit pas d’informations utiles – à moins qu’il n’y ait une partie du processus complètement brisée.
Dans les courses de dragsters, les voitures doivent accélérer aussi vite que possible, puis freiner rapidement. Pour le freinage, ils déploient généralement un parachute derrière la voiture pour augmenter la traînée et les méthodes de freinage traditionnelles. Ce qui se soucie des coureurs de dragsters, c’est de la rapidité avec laquelle la voiture freine. Si nous voulions comparer différents systèmes de freinage, nous les testions du moment du déploiement jusqu’au moment où la voiture s’est arrêtée et à mesurer le temps et la distance. Imaginez plutôt des systèmes de freinage comparatif en mesurant la vitesse à laquelle les parachutes sont déployés.
De même, avec un produit de recherche où toutes les réponses doivent être vérifiées, ce qui compte le plus, c’est de la rapidité et de la précision des chercheurs à la fin de ce processus. Par exemple, quel système de recherche juridique préférez-vous? Un où:
a) Les réponses générées par la LLM sont précises 95% du temps, et les chercheurs, en moyenne, peuvent vérifier la précision dans les 25 minutes et obtenir une réponse précise 97% du temps, ou
b) Les réponses générées par la LLM sont précises 85% du temps, et les chercheurs, en moyenne, peuvent vérifier la précision dans les 15 minutes et obtenir une réponse précise à 100% du temps.
Étant donné que tous les chercheurs doivent s’engager dans ce processus en deux étapes 100% du temps, il est clair que l’option B serait meilleure. Alors pourquoi pourrions-nous simplement comparer la première partie du processus?
Les entreprises technologiques se soucient profondément de l’analyse comparative. Cependant, les repères doivent mesurer les produits de la façon dont ils sont conçus pour être utilisés et doivent se concentrer sur les résultats que les clients se soucient.
Il est logique que le domaine juridique devienne un premier banc d’essai pour ce type d’analyse. Dès les premiers jours du développement grand public du Genai lorsque Chatgpt a accédé à la LSAT, les cas d’utilisation juridique ont été des exemples principaux de la puissance et des risques associés à l’IA. Le domaine juridique n’est pas étranger à l’IA; Les principales entreprises l’utilisent depuis des décennies dans notre plateforme de recherche juridique, et de même, les avocats en bénéficient.
Mesurer la portée complète
En travaillant avec nos clients pour améliorer continuellement la recherche juridique, nous comprenons qu’il s’agit d’un processus multiphasique avec de nombreux intrants et facteurs – les capacités Genai n’étant qu’une partie de celle-ci. L’ensemble du processus de recherche juridique est détaillé et complexe, et les avocats doivent vérifier les sources et valider le matériel – en substance, suivre des pratiques de recherche solides holistiques pour s’assurer que leur recherche est complète et précise. L’analyse comparative d’une partie de ce processus ne peut pas mesurer la portée complète ou la véritable valeur de la recherche juridique.
«Il y a une perception erronée généralisée sur la façon dont les cabinets d’avocats utilisent l’IA et comment nous effectuons des recherches juridiques. Nous n’apportons pas l’IA et ne disons pas: «Allez faire toutes les recherches et écrivez un mémoire», puis en remplaçant tous nos associés subalternes à des résultats automatisés », a déclaré Meredith Williams-Range, directrice des opérations juridiques, Gibson, Dunn & Crutcher LLP. «Nous utilisons des outils compatibles AI qui sont intégrés directement dans les outils de recherche et de rédaction que nous utilisons déjà, et, par conséquent, nous obtenons des informations plus profondes, plus nuancées et plus complètes plus rapidement. Nous avons des professionnels hautement qualifiés faisant une analyse et des rapports d’informations sophistiquées, augmentées par la technologie. »
Regarder au-delà des bases de l’évaluation de l’IA
Pour indiquer l’évidence, les tests de référence devraient évaluer les solutions conformément à leur utilisation prévue. Dans la recherche juridique, Genai a démontré des avantages importants; Cependant, il est destiné à être intégré dans un flux de travail complet qui comprend l’examen du droit primaire, la vérification des citations et l’utilisation d’annotations de statuts pour garantir une compréhension approfondie de la loi.
«Chez Husch Blackwell, nous nous sommes concentrés sur l’efficacité du projet de bout en bout dans la construction et le déploiement de nos outils en IA internes», a déclaré Blake Rooney, directeur de l’information de l’entreprise. «Bien que les mesures de performance qui se concentrent sur l’efficacité des tâches puissent être utiles, les mesures de performance au niveau du projet pour des efforts telles que la rédaction de contrats ou la découverte dans les litiges font un bien meilleur travail pour souligner l’efficacité qui résonne avec nos avocats et nos clients parce qu’ils fournissent un Image plus claire de la valeur globale et des économies de temps. Le temps est une ressource finie dont nous souhaitons toujours que nous puissions avoir plus, et nos avocats comprennent que – lorsqu’ils sont utilisés correctement et de manière responsable – les outils d’IA leur permettent de terminer les projets plus rapidement (et souvent mieux) qu’ils ne le pouvaient sans l’IA, offrant ainsi ainsi une véritable valeur à nos clients et finalement permettre à nos avocats de faire plus de travail (ou de passer plus de temps avec la famille) avec le temps dont ils ont. »
Pour la recherche juridique, la précision, la cohérence et la vitesse, mais aucun d’entre eux n’offre un seul indicateur de succès. Lorsqu’il s’agit d’évaluer les performances des solutions de qualité professionnelle dans des domaines spécialisés comme le droit, il est essentiel de ne pas laisser des instantanés isolés d’une métrique de performance unique déformer notre point de vue.
La valeur de l’IA légale – de toute innovation technologique d’ailleurs – est la façon dont il est utilisé dans le monde réel et la façon dont tous les différents composants se réunissent pour aider les avocats à faire leur travail plus efficacement.
À propos de l’auteur
Raghu Ramanathan est président des professionnels du droit chez Thomson Reuters.
La beauté du poste est dans l’IA du spectateur est apparue en premier sur la loi.