WASHINGTON — Pour obtenir une évaluation vrillée des capacités réelles des intelligences artificielles génératives très médiatisées comme ChatGPT, fonctionnaires du PBureau en chef des données et de l’IA d’Entagon ils ont dit qu’ils le feraientJe publierai un « modèle de maturité » en juin.
“Nous avons travaillé très dur pour déterminer où et quand l’IA générative peut être utile et où et quand cela va être dangereux », a déclaré le CDAO sortant, Craig Martell, au sous-comité Cyber, technologies innovantes et systèmes d’information.e de la commission des services armés de la Chambre ce matin. « Il y a un fossé entre la science et le marketing, et l’une des choses que fait notre organisation, [through its] La Task Force Lima tente de rationaliser cet écart. Nous construisons ce que nous appelons un modèle de maturité, très similaire au modèle de maturité de la conduite autonome.
Ce cadre largement utilisé évalue les affirmations des constructeurs automobiles sur une échelle allant de zéro – un véhicule purement manuel, comme le Ford Model T – à cinq, un véhicule véritablement autonome qui ne nécessite aucune intervention humaine en aucune circonstance, un critère qu’aucun Le vrai produit n’a pas encore été rencontré.
EN RELATION: Stupidité artificielle : tâtonner le transfert de l’IA au contrôle humain
Pour l’IA générative, poursuit Martell, “c’est un modèle très utile parce que les gens ont revendiqué le niveau cinq, mais objectivement parlant, nous sommes vraiment au niveau trois, avec quelques personnes faisant des choses de niveau quatre.”
Le problème avec les grands modèles linguistiques à ce jour est qu’ils produisent un texte plausible, voire faisant autorité, mais néanmoins criblé d’erreurs appelées « hallucinations » que seul un expert en la matière peut détecter. Cela rend les LLM trompeusement faciles à utiliser, mais terriblement difficiles à bien utiliser.
«C’est extrêmement difficile. Il faut une charge cognitive très élevée pour valider le résultat », a déclaré Martell. “[Using AI] remplacer les experts et permettre aux novices de remplacer les experts, c’est là que je pense que c’est dangereux. Là où je pense que cela sera le plus efficace, c’est d’aider les experts à devenir de meilleurs experts, ou d’aider quelqu’un qui connaît bien son travail à être meilleur dans le travail qu’il connaît bien.
“Je ne sais pas, Dr Martell”, a répondu un représentant sceptique Matt Gaetz, l’un des membres républicains du sous-comité. “Je trouve que beaucoup de novices font preuve de capacités en tant qu’experts lorsqu’ils sont capables d’accéder à ces modèles linguistiques.”
« Si je peux, monsieur », intervint Martell anxieusement, « il est extrêmement difficile de valider le résultat. … Je suis totalement d’accord, à condition qu’il existe un moyen de vérifier facilement le résultat du modèle, car l’hallucination n’a pas encore disparu. Il y a beaucoup d’espoir que les hallucinations disparaissent. Certaines recherches indiquent que cela ne disparaîtra jamais. C’est une question empirique ouverte à laquelle je pense que nous devons continuer à prêter attention.
“S’il est difficile de valider les résultats, alors… je suis très mal à l’aise avec cela”, a déclaré Martell.
Les deux mains sur le volant : à l’intérieur du modèle de maturité
La veille du témoignage de Martell sur la Colline, son directeur de la technologie, Bill Streilein, a donné lors de la conférence annuelle du Potomac Officers Club sur l’IA des détails sur le développement et le calendrier du prochain modèle de maturité.
Depuis le lancement du groupe de travail Lima du CDAO en août dernier, a déclaré Streilein, il a évalué plus de 200 « cas d’utilisation » potentiels de l’IA générative soumis par des organisations du ministère de la Défense. Ce qu’ils ont découvert, dit-il, c’est que « les cas d’utilisation les plus prometteurs sont ceux du back-office, où de nombreux formulaires doivent être remplis et de nombreux documents doivent être résumés ».
EN RELATION : Au-delà de ChatGPT : les experts affirment que l’IA générative devrait écrire – mais pas exécuter – des plans de bataille
« Un autre cas d’utilisation très important est celui de l’analyste », a-t-il poursuivi, car les analystes du renseignement sont déjà des experts dans l’évaluation d’informations incomplètes et peu fiables, avec un double contrôle et une vérification intégrés dans leurs procédures standard.
Dans le cadre de ce processus, le CDAO s’est adressé à l’industrie pour lui demander son aide pour évaluerutiliser des IA génératives — quelque chose que le secteur privé est également fortement incité à réaliser. «Nous avons publié une RFI [Request For Information] à l’automne et j’ai reçu plus de 35 propositions de l’industrie sur les moyens d’instancier ce modèle de maturité », a déclaré Streilein lors de la conférence des officiers du Potomac. « Dans le cadre de notre symposium, qui s’est tenu en février, nous avons eu une journée de travail complète pour discuter de ce modèle de maturité.
«Nous publierons notre première version, la version 1.0 du modèle de maturité… fin juin», a-t-il poursuivi. Mais cela ne s’arrêtera pas là : « Nous prévoyons une itération… Il s’agit de la version 1.0 et nous prévoyons qu’elle continuera à évoluer à mesure que la technologie s’améliore et que le Département se familiarise également avec l’IA générative.
Streilein a déclaré que la version 1.0 « consistera en une rubrique simple de cinq niveaux qui expriment à quel point le LLM veille de manière autonome à l’exactitude et à l’exhaustivité », donnant un aperçu du cadre discuté par Martell avec les législateurs. “Il s’agira d’ensembles de données avec lesquels les modèles pourront être comparés, et il s’agira d’un processus par lequel quelqu’un pourra exploiter un modèle d’un certain niveau de maturité et l’intégrer dans son flux de travail.”
EN RELATION: 3 façons dont les analystes Intel utilisent actuellement l’intelligence artificielle, selon un ancien responsable
Pourquoi CDAO s’inspire-t-il du modèle de maturité des voitures dites autonomes ? Pour souligner que l’humain ne peut pas adopter une approche passive et fondée sur la foi face à cette technologie.
“En tant qu’humain sachant conduire une voiture, si vous savez que la voiture va vous maintenir dans votre voie ou éviter des obstacles, vous êtes toujours responsable des autres aspects de la conduite, [like] quitter l’autoroute pour emprunter une autre route », a déclaré Streilein. “C’est en quelque sorte l’inspiration de ce que nous voulons dans le modèle de maturité LLM… montrer aux gens que le LLM n’est pas un oracle, ses réponses doivent toujours être vérifiées.”
Streilein a dit qu’il était enthousiasmé par l’IA générative et son potentiel, mais il souhaite que les utilisateurs procèdent avec prudence, en pleine conscience des limites des LLM.
«Je pense qu’ils sont incroyables. Je pense également qu’ils sont dangereux, car ils fournissent une interface très humaine à l’IA », a-t-il déclaré. “Tout le monde ne comprend pas qu’il ne s’agit en réalité que d’un algorithme prédisant des mots en fonction du contexte.”
Recommandé