L’approche dominante de l’intelligence artificielle selon laquelle « plus c’est gros, mieux c’est » – ingérer plus de données d’entraînement, produire des modèles plus grands, construire de plus grands centres de données – pourrait saper le type de recherche et de développement dont l’armée américaine a réellement besoin aujourd’hui et à l’avenir.
C’est l’argument avancé dans « Hype, Sustainability, and the Price of the Bigger-is-Better Paradigm in AI », un nouvel article qui examine les hypothèses courantes qui sous-tendent la recherche sur l’IA. Ses auteurs démontrent que les performances de modèles plus grands ne justifient pas nécessairement les ressources considérablement accrues nécessaires à leur construction et à leur alimentation. Ils soutiennent également que la concentration des efforts en matière d’IA dans une poignée relative de grandes entreprises technologiques ajoute des risques géopolitiques.
D’une manière générale, le ministère de la Défense poursuit l’IA selon deux axes : de grands modèles qui nécessitent d’énormes ressources informatiques, et une IA plus petite, sur plate-forme, qui peut fonctionner sans connexion Internet. D’une certaine manière, l’étude valide la deuxième approche. Mais, notent les auteurs, les recherches futures sur la « petite IA » pourraient être limitées en raison de l’influence croissante des grands fournisseurs d’IA.
D’où vient l’idée selon laquelle plus grand est mieux, du moins en IA ? Dans leur article, Gaël Varoquaux de l’Université Paris-Saclay, Alexandra Sasha Luccioni de l’Institut québécois d’IA et Meredith Whittaker de la Signal Foundation font remonter cette origine à un article de 2012 du professeur Alex Krizhevsk de l’Université de Toronto, qui soutenait que les mégadonnées et les projets à grande échelle Les réseaux de neurones offraient de bien meilleurs résultats en matière de classification d’images que les réseaux plus petits. Cette idée a été confirmée par d’autres chercheurs et est depuis devenue un élément essentiel de la manière dont les grandes entreprises abordent l’IA.
« La conséquence de cela est à la fois une explosion des investissements dans les modèles d’IA à grande échelle et une augmentation concomitante de la taille des modèles notables (très cités). L’IA générative, qu’il s’agisse d’images ou de textes, a porté cette hypothèse à un nouveau niveau, à la fois dans la discipline de recherche en IA et en tant que composante du récit populaire « plus c’est gros, mieux c’est » entourant l’IA », écrivent-ils.
Les auteurs rassemblent des preuves démontrant que les avantages de la mise à l’échelle des modèles d’IA diminuent rapidement par rapport aux demandes informatiques accrues. Par exemple, le coût environnemental, mesuré en consommation d’énergie, augmente beaucoup plus rapidement que l’amélioration des performances du modèle, ce qui rend l’IA à grande échelle peu efficace. C’est une perte pour beaucoup des promoteurs les plus riches et les plus connus de l’IA, comme l’ancien président de Google, Eric Schmidt, qui a soutenu la semaine dernière que les entreprises et les gouvernements devraient continuer à rechercher de grands modèles d’IA à forte intensité énergétique, quel que soit le coût énergétique, car « nous sommes de toute façon, nous n’atteindrons pas les objectifs climatiques.
L’armée ne peut pas adopter une approche aussi cavalière face aux coûts énergétiques énormes de l’IA. Le ministère de la Défense considère le changement climatique comme une préoccupation de sécurité nationale mais, plus immédiatement, considère également l’efficacité énergétique comme un objectif militaire clé pour les opérations futures.
Pire encore, la théorie conventionnelle selon laquelle « plus c’est mieux, plus c’est mieux », la recherche sur l’IA se rétrécit et perd de sa diversité, écrivent-ils. .»
Cela signifie que les chercheurs ignoreront de plus en plus les domaines dans lesquels des modèles plus petits pourraient faire une grande différence, comme la santé et l’éducation.
Bien que les auteurs n’en parlent pas dans leur article, cet effet de restriction a des conséquences sur le développement de l’IA par l’armée. Des modèles plus petits pourraient également faire une grande différence dans les endroits où les ressources informatiques sont rares et où la connectivité est intermittente, rare, voire inexistante. Cela pourrait s’appliquer à tout, depuis les drones autonomes opérant dans des environnements saturés d’effets de guerre électromagnétique adverse jusqu’aux petites bases situées dans des emplacements avancés où l’énergie est rare et la connectivité faible.
L’évolution rapide des armes et des tactiques signifie que de plus en plus d’opérateurs proches du combat devront inventer ou modifier leurs propres équipements et armes. Les opérateurs des bases avancées peuvent être confrontés à de nombreuses situations dans lesquelles ils peuvent avoir un bon usage d’un modèle d’IA qui fonctionne sur un corpus de données relativement petit et ne nécessite pas une énorme batterie de serveurs ou de nombreux GPU pour fonctionner. Il peut s’agir d’applications qui analysent les données d’images de drones ou de satellites pour des types spécifiques de véhicules, analysent les signatures spécifiques des armes électromagnétiques qu’ils rencontrent, ou même simplement comprennent les données économiques, météorologiques, démographiques ou de consommation locales pour planifier des opérations plus efficaces et plus sûres. milieux urbains denses. Mais si le domaine de la recherche en IA donne la priorité à l’expertise en grande IA plutôt qu’en petite, cela pourrait signifier moins de bourses d’études et moins d’experts pour former les opérateurs à bien créer leurs propres petits modèles d’IA.
La tendance croissante vers une grande IA a une autre implication géopolitique : une concentration du pouvoir. Seules quelques entreprises possèdent les ressources nécessaires pour créer et déployer des modèles massifs. « Le pouvoir concentré de l’industrie privée sur l’IA crée un segment restreint et financièrement incité de décideurs en matière d’IA. Nous devrions réfléchir à la façon dont un tel pouvoir concentré avec une agence sur une IA centralisée pourrait façonner la société dans des conditions plus autoritaires », écrivent-ils.
Un exemple évident de la menace que cela représente est celui d’Elon Musk, l’un des entrepreneurs de défense les plus riches au monde et, via SpaceX, un fournisseur clé d’accès à l’espace et de communications par satellite pour le Pentagone. Musk entretient également des liens financiers étroits avec l’Arabie saoudite et a utilisé sa présence importante et coûteuse sur les réseaux sociaux pour renforcer les publications et les contenus liés aux opérations de désinformation russes. Musk apparaît également comme l’un des principaux acteurs financiers dans le développement de l’IA du futur.
Whittaker et ses collègues auteurs font partie d’un nombre restreint mais croissant de chercheurs axés sur l’IA qui soulignent les risques posés par la prévalence de l’école de l’IA du « plus grand est le mieux ». Un autre article, publié en septembre par un groupe de chercheurs de Berkeley, note également : « Il est extrêmement courant que des modèles plus petits et plus axés sur les tâches fonctionnent mieux que les grands modèles à usage général sur des tâches spécifiques en aval. »
Une nouvelle classe de praticiens innovants de l’IA souligne également à quel point le débat autour de la grande IA noie les approches qui pourraient être plus utiles à des groupes spécifiques.
Pete Warden, PDG de la startup d’IA Useful Sensors, est l’un d’entre eux. Le travail de Warden se concentre sur l’intégration de l’intelligence dans des appareils ou des ordinateurs. Il dit que l’obsession de l’industrie et des universitaires pour une IA plus large ne répond pas à ce que la plupart des gens attendent réellement de l’IA avec laquelle ils interagissent.
« Les références académiques se sont éloignées des exigences du monde réel », a déclaré Warden. « Par exemple, de nombreux clients souhaitent simplement pouvoir récupérer les résultats d’informations existantes (comme les manuels d’utilisation) plutôt que de générer un nouveau texte en réponse à des questions, mais cela n’est pas considéré comme intéressant par les chercheurs. » La génération augmentée par récupération, dit-il, est un cheval de bataille académique. Mais les applications client n’ont pas besoin d’un tel niveau de complexité », a-t-il déclaré à Defense One.
« Pour de nombreux problèmes réalistes, comme le suivi des drones par exemple, les modèles sous-jacents sont désormais suffisamment performants et le véritable défi consiste à les intégrer dans des systèmes plus vastes. Nous n’avons plus besoin de percées en matière de vision par ordinateur ni de nouvelles architectures de modèles. Nous avons simplement besoin de meilleures données qui reflètent les problèmes réels de déploiement et d’un moyen d’adapter les modèles au matériel.
Drew Breunig a dirigé des projets de science des données et des projets clients stratégiques chez PlaceIQ, qui fait désormais partie de Precisely. En septembre, il a écrit un article sur le fait qu’il est peu probable que les attentes élevées de nombreuses personnes en matière d’IA générative, l’exemple par excellence des grands modèles d’IA, soient satisfaites. Lorsque ces prises de conscience s’établiront, cela pourrait conduire à une discussion plus large sur les différentes voies potentielles pour le développement de l’IA.
Breunig a déclaré à Defense One : « Les capacités de nos modèles existants dépassent largement celles de nos modèles actuels. [user interface] et les cadres que nous avons construits pour fournir leurs renseignements sur presque tous les problèmes du monde réel qu’ils résolvent.
Il divise l’IA en trois groupes. « Dieux », qu’il définit comme « des trucs de superintelligence AGI ». Remplacement des humains qui font plein de choses différentes, sans surveillance.
En dessous d’eux se trouvent des « stagiaires » qu’il décrit comme des « copilotes ». Des applications spécifiques à un domaine qui aident les experts dans leur travail chargé et fastidieux, faisant des choses qu’un stagiaire pourrait faire. Les stagiaires sont encadrés par des experts, votre tolérance aux hallucinations est donc élevée. Le programmeur, l’écrivain ou quiconque repère les erreurs lorsqu’elles se produisent et passe à autre chose.
Enfin, la forme d’IA la plus locale est celle des « rouages », définie comme « des modèles qui ont été réglés pour effectuer une tâche, avec une très faible tolérance aux erreurs, travaillant sans supervision au sein d’applications ou de pipelines. C’est de loin le cas d’utilisation dominant que je vois dans l’entreprise. Toutes les grandes plates-formes (AWS, Azure, Databricks, etc.) ont décidé d’aider les entreprises à charger leurs données propriétaires afin d’ajuster les modèles ouverts pour bien faire une petite chose.
Même si les pilotes d’IA générative reçoivent beaucoup plus d’attention, l’armée les explore tous les trois à travers des programmes qui fournissent une aide à la décision pour l’identification des cibles, c’est-à-dire le projet Maven, et d’autres efforts d’aide à la décision », et des efforts de « rouage » tels que la reconnaissance visuelle des instruments. indicateurs dans les cockpits d’hélicoptères.
Étant donné que ces besoins ne feront qu’augmenter, il est important pour les militaires que l’avenir de la recherche en IA soit suffisamment vaste pour continuer à soutenir ces trois domaines.
“Pete et moi sommes d’accord sur ce point”, a déclaré Breunig. « Lorsque Pete dit que les cas de recherche des universitaires sont en décalage avec la réalité pratique de la construction avec l’IA, c’est parce qu’ils se concentrent en grande partie sur l’atteinte des dieux et non sur le travail ennuyeux de construire des rouages. on peut faire tellement de choses avec des petits modèles ! Un petit modèle adapté à une chose peut surpasser un modèle général géant dans la même tâche. Et c’est plus rapide, moins cher, etc.