En août, le Cabinet d’avocats international basé dans la Silicon Valley Gunderson Dettmer est devenu l’un des premières entreprises basées aux États-Unis – si ce n’est la première – à développer et à lancer un outil d’IA générative interne « local », qu’elle appelle ChatGD.
Comme Joe Greendirecteur de l’innovation de l’entreprise, m’a dit à l’époque : « Compte tenu de notre position en tant qu’entreprise qui se concentre exclusivement sur la collaboration avec les entreprises et les investisseurs les plus innovants au monde, nous avons pensé qu’il serait vraiment intéressant pour nous de mettre la main à la pâte et de nous lancer réellement dans la technologie, voyons ce que nous pouvons en faire.
Aujourd’hui, après plus de quatre mois d’activité, l’entreprise commence à avoir une idée plus claire de ce qu’elle peut faire avec la technologie – et de ce qu’elle ne peut pas faire. Il a également eu l’occasion de suivre l’adoption de la technologie par les professionnels de l’entreprise, de voir comment ils l’utilisent et de mesurer le coût pour l’entreprise de fournir cette IA exclusive.
Écoutez : Sur LawNext : L’histoire derrière le lancement par Gunderson Dettmer de ChatGD, son application d’IA générative « locale », avec Joe Green et John Scrudato.
Dans un article publié aujourd’hui sur LinkedIn, ChatGD : Leçons (jusqu’à présent) de notre expérience Legal GenAI, Green fait le point sur le déploiement de l’IA par l’entreprise. Hier, avant la publication du message, j’ai eu l’occasion de parler avec Green et John Scrudato, responsable principal de l’ingénierie juridique et de la stratégie de données chez Gunderson. Ils ont fourni des détails supplémentaires sur l’expérience jusqu’à présent et ont partagé des mises à jour sur les nouvelles fonctionnalités qu’ils lancent aujourd’hui.
La moitié de l’entreprise l’a utilisé
En guise de rappel, la société a lancé ChatGD avec deux composants principaux. L’un d’entre eux est un mode de discussion général, similaire à ChatGPT, dans lequel les avocats peuvent directement avoir des conversations avec le grand modèle linguistique (LLM). L’autre composant permet aux utilisateurs d’interroger leurs propres documents à l’aide de la génération augmentée par récupération (RAG), une méthode d’utilisation de données pertinentes extérieures au LLM pour augmenter les requêtes.
Grâce à ce composant RAG, les avocats peuvent télécharger des documents ou des collections de documents, puis interroger le LLM et recevoir des réponses basées sur le contexte fourni par les documents. Non seulement cela permet aux avocats d’interroger le LLM sur la base de leurs propres connaissances internes, mais cela réduit également les hallucinations et augmente la précision, a déclaré Green.
Avance rapide jusqu’à aujourd’hui, et Green rapporte que près de la moitié de l’entreprise a déjà utilisé ChatGD et que l’utilisation et l’engagement continuent d’augmenter régulièrement. Les utilisateurs ont soumis et complété plus de 9 000 invites sur plusieurs milliers de fils de conversation.
« Pour les avocats et les professionnels qui ont participé à cet outil, nous avons reçu des commentaires vraiment formidables, notamment sur la façon dont ils ont compris comment obtenir des résultats vraiment intéressants avec l’outil », m’a dit Green.
Avant que quiconque ne soit autorisé à utiliser ChatGD, l’entreprise exigeait qu’il suive une formation initiale, en direct ou à la demande. Le cabinet a présenté trois sessions de formation en direct spécialement conçues pour ses avocats, parajuristes et professionnels des affaires. Plus de la moitié de l’entreprise a assisté à l’une de ces trois formations en direct, ce qui, selon Green, témoigne du haut niveau d’intérêt au sein de l’entreprise pour GenAI en général et pour l’outil qu’elle a créé.
“Nous avons conçu le déploiement de ChatGD comme une expérience collaborative conçue pour aider chacun à progresser dans la courbe d’apprentissage et à rassembler les cas d’utilisation et les méthodes les plus prometteurs pour obtenir les meilleurs résultats des outils basés sur GenAI”, écrit Green dans son article sur LinkedIn.
Les formations, développées par Scrudato et les membres du groupe de travail sur l’IA du cabinet, étaient axées sur le fonctionnement réel des LLM et RAG, afin de fournir à chacun une compréhension de base de la technologie et sur la manière d’utiliser ChatGD de manière sûre et éthique. . Les formations ont également couvert les cas d’utilisation idéaux de l’IA générative et les domaines dans lesquels la technologie n’est pas encore bien adaptée.
Divers – mais pas surprenant – Cas d’utilisation
Une fois que les membres de l’entreprise ont commencé à utiliser ChatGD, ils l’ont fait de différentes manières, explique Green.
“Nos avocats l’utilisent pour récupérer et manipuler ou résumer le langage des accords juridiques, rédiger et modifier le ton des e-mails, résumer des documents et des articles et réfléchir à différents exemples de langage juridique ou de sujets de présentation”, dit-il.
Il s’est également révélé utile aux professionnels des affaires et de la technologie de l’entreprise. Green affirme l’avoir utilisé pour créer et réutiliser du contenu à des fins marketing, répondre à des appels d’offres, préparer des réunions, structurer et formater des données, écrire du code et améliorer les communications écrites.
Dans le même temps, Green a déclaré qu’il n’avait vu aucune utilisation surprenante ou imprévue de ChatGD, peut-être en partie parce que les formations ont préparé les gens à des cas d’utilisation spécifiques.
« Nous avons donné quelques exemples de façons dont nous suggérions d’utiliser l’outil, et lors de notre examen des résultats, il semblait que beaucoup de personnes l’utilisaient pour ce type de travail, ce qui était formidable : changer le ton d’un e-mail, prendre texte formaté d’une manière et le transformant en puces, résumant des choses courtes ou des choses de cette nature », m’a-t-il dit.
Mais, variante de la norme, un avocat, un des premiers à avoir adopté cet outil et l’utilise fréquemment dans son travail professionnel, l’a utilisé pour rédiger une annonce de naissance pour sa fille, sous la forme d’une parodie de La nuit avant Noël.
Une surprise sur le coût
Le point le plus surprenant du déploiement jusqu’à présent est peut-être son coût. La peur du coût des LLM commerciaux et d’entreprise a dissuadé certains cabinets d’avocats de se précipiter vers l’adoption ou le déploiement à grande échelle de l’IA générative.
Mais Green prévoit que le coût annuel total pour Gunderson pour fournir ChatGD à l’ensemble de l’entreprise sera inférieur à 10 000 dollars – un chiffre qu’il qualifie de « incroyablement bas ».
“Nous avions le sentiment que la différence de coût entre les prix demandés par les fournisseurs pour leurs outils et ce que nous pouvions faire serait assez significative”, m’a expliqué Scrudato. «J’ai été choqué de voir à quel point cela fait une différence.»
Même ces 10 000 $ étaient principalement imputables aux coûts opérationnels et d’infrastructure, et non aux LLM eux-mêmes. (Cela n’inclut pas l’ingénierie interne de l’entreprise.)
Green, dans son article, attribue la capacité de l’entreprise à maintenir des coûts aussi bas à deux décisions stratégiques :
Auto-hébergement d’un modèle open source pour les intégrations vectorielles RAG. Tirer parti de GPT 3.5 Turbo pour les fonctionnalités de chat pur et RAG au lieu d’utiliser les modèles les plus chers disponibles.
“Je pense que lorsque beaucoup de gens disent que les LLM sont chers, ils parlent de cas d’utilisation dans lesquels ils traitent d’énormes quantités de données, ou éventuellement forcent quelque chose”, a déclaré Scrudato. « Mais si vous l’utilisez uniquement pour interagir avec l’utilisateur, c’est assez économique, surtout si vous utilisez un modèle comme le GPT 3.5 Turbo. C’est bon marché, ce n’est pas cher.
Mises à jour publiées cette semaine
Cette semaine, Gunderson a publié des mises à jour majeures de ChatGD, que Green décrit dans son article sur LinkedIn.
À l’aide de modèles de routage d’invites et d’intégrations open source, l’entreprise a construit plusieurs indices qui utilisent une combinaison de mots-clés, de graphiques de connaissances, d’intégrations vectorielles et de récupération autonome pour optimiser dynamiquement la méthode de récupération des faits choisie pour l’invite spécifique d’un utilisateur dans le cadre de notre flux de travail RAG. .
Cela inclut le routage des invites vers différents LLM pour la récupération et la synthèse des faits afin d’effectuer l’étape de génération de langage du processus RAG, permettant à l’entreprise d’utiliser des fenêtres contextuelles plus grandes et des modèles plus grands pour un meilleur résumé tout en réservant des modèles plus rentables pour la récupération des faits.
Pour les tâches de synthèse particulièrement détaillées, ChatGD achemine les requêtes vers les modèles les plus puissants avec les plus grandes fenêtres contextuelles pour fournir au modèle le contexte complet du matériel source.
“Nous utilisons le routage des invites comme une sorte de point d’entrée à partir d’une invite donnée pour décider quels outils utiliser réellement pour répondre à leur question”, a expliqué Scrudato.
“Donc, si quelqu’un dit : ‘Je veux un résumé détaillé de ce document’, nous pouvons essentiellement demander au LLM de décider que cela nécessite une fenêtre contextuelle plus grande et un modèle plus puissant, et de l’acheminer vers un modèle de fenêtre contextuelle GPT-4 de 32 000 jetons. , qui est un modèle beaucoup plus lourd et plus cher.
« Pour de nombreuses interactions, vous n’avez pas besoin de beaucoup de puissance, mais pour certaines, cela a beaucoup de sens. Une grande partie du travail que nous avons effectué se déroule en coulisses pour nous permettre de répondre de manière dynamique aux demandes des gens en fonction de leurs intentions, puis de choisir le bon outil, le bon LLM, pour les aider à réaliser ce qu’ils veulent faire.
À l’heure actuelle, l’entreprise utilise trois modèles fondamentaux différents dans le cadre de la pile technologique de ChatGD et déploie le meilleur modèle disponible pour chaque objectif particulier. La société a également apporté un certain nombre d’améliorations de l’expérience utilisateur et des performances sur la base des commentaires des utilisateurs, et elle est prête à mettre à niveau son LLM de recherche de faits vers GPT 4 Turbo dès qu’il sera disponible pour une utilisation en production.
Évaluation de l’expérience
Étant donné que Gunderson s’est lancé dans le développement de cet outil comme une sorte d’expérience, j’ai demandé à Green de résumer les résultats obtenus jusqu’à présent et ce qu’il a appris.
“L’expérience est définitivement en cours”, a-t-il déclaré. “Les résultats actuels : nous avons énormément appris nous-mêmes grâce au processus de création de cette application qui, je pense, fera de nous des consommateurs beaucoup plus avertis de la technologie dans ce domaine – pour être en mesure de voir ce qui implique réellement une quantité importante d’ingénierie et une valeur ajoutée significative par rapport à ce que les modèles fondateurs sont capables de faire.
Il a déclaré qu’il était passionnant de voir comment les gens l’utilisaient et pour quels cas d’utilisation.
“Mais pour accéder aux cas d’utilisation à plus forte valeur sans autre type de changement radical dans les capacités de la technologie – ce que je n’écarte pas à venir – mais pour arriver à ces cas d’utilisation à plus forte valeur, une quantité importante d’ingénierie supplémentaire est nécessaire. il faut qu’il soit cohérent et de qualité suffisamment élevée pour qu’il puisse être réalisé dans un environnement de production avec le type d’enjeux qu’un cabinet d’avocats a.
Green et Scrudato ont déclaré qu’il était également utile de comprendre ce qui est possible avec la technologie.
“Quand nous voyons des produits qui semblent faire quelque chose de vraiment différent, de vraiment unique, ou qui nécessitent beaucoup de temps d’ingénierie, cela nous intéresse”, a déclaré Scrudato. “Alors que je pense que nous sommes mieux en mesure de repérer un produit qui, comme certaines personnes l’ont dit récemment, de nombreux produits ne sont que de minces emballages sur ChatGPT, et je pense que nous sommes assez facilement en mesure d’identifier ces produits et prendre de bonnes décisions d’achat.