Comme son nom l'indique, la vision par ordinateur désigne la capacité d'un appareil numérique à capter des données visuelles – photos, vidéos, voire des images en direct – puis à en extraire du sens. Aujourd'hui, la vision par ordinateur est utilisée dans la vie quotidienne pour des applications très variées, allant de l'organisation de galeries de photos et des voitures semi-autonomes à l'analyse des logos de sponsors dans les vidéos sportives, en passant par le contrôle qualité sur les chaînes de montage des usines de puces en silicium.
Mais les possibilités offertes par la vision par ordinateur sont infinies, et de nombreuses innovations moins connues sont actuellement en cours de développement, voire déjà mises en pratique dans le monde réel. En voici quelques-unes :
Regarde, maman, pas besoin d'appareil photo : la cartographie 3D
Grâce à des technologies telles que Google Tango, la prochaine génération de smartphones sera de plus en plus équipée de capteurs 3D qui leur permettront d’identifier, de mesurer et de créer des cartes 3D du monde qui les entoure. C’est cette nouvelle fonctionnalité que la start-up Fantasmo, basée à Santa Monica, exploite pour créer une plateforme dédiée à la cartographie spatiale 3D participative. Ces informations peuvent être stockées dans le cloud, puis utilisées à des fins très variées : aider les nouveaux propriétaires à visualiser comment leurs meubles s’intégreraient dans leur nouveau logement, ou permettre aux développeurs de Pokémon Go de créer du contenu en réalité augmentée (RA) s’appuyant sur une compréhension réelle et en temps réel de l’environnement du joueur. Mais en combinant la technologie du Project Tango avec une caméra en direct, le jeu transformera toute la pièce grâce à des superpositions spécifiques à l’environnement et à divers Pokémon réagissant à cet environnement à la volée.
Pour Fantasmo, la valeur ne réside pas dans la numérisation 3D en soi, mais dans la plateforme regroupant des espaces 3D cartographiés de manière participative, ainsi que dans la capacité à contrôler cette plateforme. « Nous voulons être le canal par lequel ces données transitent », a déclaré Jameson Detweiler, PDG de Fantasmo, lors d’une démonstration au LDV Vision Summit, où Fantasmo a remporté le concours des start-ups. « L’objectif final est de disposer d’un modèle du monde en constante mise à jour, dans lequel nous suivons activement chaque personne, puis réinjectons ces données dans un moteur de jeu ou tout autre outil de votre choix. C’est littéralement ainsi que l’on fusionne le monde numérique et le monde physique. C’est la couche de réalité augmentée. »
Le petit assistant des pathologistes : le diagnostic grâce aux yeux, aux visages et aux radiographies
Contrairement à une idée reçue, les diagnostics assistés par ordinateur ne visent pas réellement à remplacer les médecins ou les autres professionnels de santé, mais plutôt à renforcer leurs capacités. Un pathologiste examine en moyenne environ 500 lames de verre, chacune contenant des dizaines, voire des centaines de milliers de cellules individuelles. Toutes ces cellules doivent être examinées avec soin, ce qui est pratiquement impossible pour un seul être humain.
C'est là que l'IA basée sur la vision par ordinateur, capable de traiter d'énormes volumes d'images à condition de rechercher des éléments spécifiques, change la donne. Des études menées par PathAI, qui développe et entraîne des modèles de vision par ordinateur afin d'aider les pathologistes à améliorer leurs diagnostics, ont révélé que les taux de précision concernant les biopsies des ganglions lymphatiques dans le cadre du cancer du sein sont passés de 85 % à 99,5 % lorsque l'on compare les approches reposant uniquement sur l'intervention humaine à celles associant l'intervention humaine à celle de l'ordinateur.
Le système d’apprentissage automatique de PathAI met essentiellement en évidence les zones où il détecte un cancer parmi ces quelque 500 lames. « Désormais, le travail d’un pathologiste consiste essentiellement à corriger ou à confirmer le diagnostic fourni par le système d’IA, puis à passer au cas suivant », a déclaré le cofondateur et PDG de PathAI lors du récent LDV Vision Summit. « C’est une procédure nettement plus rapide. »
Camions, drones et bateaux : tout le reste est autonome
La plupart des actualités du secteur des transports portent aujourd’hui sur les voitures autonomes destinées au grand public, qui utilisent une combinaison de caméras, de capteurs, de LiDAR et de radars pour « voir » ce qui se trouve sur la route devant elles et autour d’elles ; mais des efforts tout aussi importants en matière de recherche et développement sont consacrés à l’optimisation des capacités de vision par ordinateur pour les camions, les navires et même les voitures de course autonomes.
Certains experts estiment que les véhicules de transport de marchandises autonomes seront prêts à être commercialisés avant les voitures particulières autonomes. À l’avenir, nous verrons des flottes de camions électriques autonomes, à l’abri des accidents, capables de rouler sans interruption 24 heures sur 24, 7 jours sur 7, peut-être à très grande vitesse, pour livrer des produits frais ou des colis — ou, plus important encore, 2 000 caisses de bière — d’un bout à l’autre du pays en quelques jours. Parallèlement, des bateaux autonomes sont déjà testés dans le port de Boston par la start-up Sea Machines, qui travaille sur des systèmes de pilotage autonome pour toutes sortes d’embarcations, des bateaux-pompes aux navires de fret. Cela pourrait-il signifier la fin des marées noires ?
Mais tout n'est pas uniquement une question de praticité. Le divertissement sportif s'oriente lui aussi vers l'autonomie. La start-up Roborace et la Formule E (championnat de courses de véhicules électriques) s'associent pour développer des voitures de course autonomes capables non seulement d'atteindre 199 miles par heure, mais aussi d'apprendre sur le circuit — plus celui-ci ressemble à un parcours d'obstacles, mieux c'est —, ce qui rend leur potentiel de battre des records exponentiel, c'est le moins qu'on puisse dire.
Des machines aux mille visages : la vision par ordinateur qui vous cerne parfaitement
L'IA manque peut-être d'empathie, de compétences relationnelles et d'intelligence émotionnelle, mais certaines des tâches pour lesquelles les réseaux de reconnaissance faciale ont récemment été entraînés permettent de prédire des émotions de manière élémentaire et spécifique. Disney, par exemple, a développé un réseau capable de déterminer ce que le public pense d’un film en 10 minutes ou moins, simplement en analysant des images de leurs visages. À l’aide de quatre caméras infrarouges braquées sur les visages des spectateurs dans une salle de cinéma de 400 places, les chercheurs de Disney ont capturé environ 16 millions d’expressions faciales au cours de 150 projections.
Grâce à une technologie appelée « auto-encodeurs variationnels factorisés » (FVAE), le programme de Disney effectue des calculs visant à déterminer si une personne, par exemple, rit ou a l'air effrayée aux moments opportuns. Ces données peuvent ensuite être utilisées à des fins diverses, allant des projections-tests aux moteurs de recommandation sur le futur service de streaming vidéo de Disney, similaire à Netflix.
Pour ne pas être en reste dans la course à l'« intelligence émotionnelle » rudimentaire des machines, cette autre grande marque typiquement américaine, Walmart, développe actuellement une technologie de reconnaissance faciale qui analyse l'humeur des clients grâce à des caméras installées aux caisses. Si un client est agacé parce que le caissier est trop lent, le système détectera son mécontentement grâce à la reconnaissance faciale et alertera immédiatement d'autres employés afin qu'ils viennent lui prêter main-forte.
Mais pourquoi se limiter aux capacités de lecture des humains ? Les animaux ont eux aussi un visage, c’est pourquoi des chercheurs britanniques ont entraîné un réseau neuronal à partir de 500 photos de moutons souffrants et de moutons en pleine forme. En se concentrant sur les signes révélateurs de la « douleur », tels que les oreilles rabattues vers l’avant et les yeux plissés, l’échelle d’évaluation des expressions faciales de la douleur chez les moutons (Sheep Pain Facial Expression Scale) a appris à prédire si un mouton souffre simplement en observant une photo de son visage.
Le « bon » côté de Terminator : des appareils portables qui fonctionnent vraiment
Même si les Google Glass n’ont pas réussi à séduire le grand public, le rêve d’un appareil portable doté de la réalité augmentée n’a pas disparu. Selon certaines rumeurs, même Apple travaillerait actuellement sur une paire de lunettes dotées de cette technologie. Pour l’instant, des entreprises telles que Vuzix proposent des lunettes intelligentes avec des superpositions de type réalité augmentée pour aider les conducteurs de tracteurs à travailler de manière plus efficace et plus sûre, tandis qu’Orcam propose des lunettes portables capables de lire du texte et même d’identifier des visages pour les malvoyants grâce à la vision par ordinateur. Ces deux modèles sont pour l’instant assez encombrants, mais ce n’est qu’une question de temps avant que des marques d’optique comme Warby Parker et leurs semblables ne proposent des appareils portables similaires qui ressemblent à s’y méprendre à des lunettes classiques. Et, bien sûr, les lentilles de contact pourraient très bien offrir ces expériences de type réalité augmentée.
À l’avenir, la possibilité de disposer d’un affichage dynamique réagissant à l’environnement permettra d’acquérir des capacités véritablement surhumaines. Il s’agit notamment de la capacité à récupérer des informations ou à analyser ce que l’on voit – le type de voiture, d’arbre, de bâtiment ou d’œuvre d’art qui se trouve devant soi –, à agrandir ce que l’on voit à l’aide d’un téléobjectif ou d’un microscope, ou encore à revoir des événements survenus il y a quelques instants, quelques jours ou plusieurs années. Et n’oublions pas que la réalité augmentée ne se résume pas à de simples superpositions sympas sur une image filmée en direct. Cela signifie également, par exemple, que les cartes thermiques en temps réel générées par des caméras thermiques, déjà présentes sur de nombreux smartphones et appareils photo portables, pourraient bientôt faire leur apparition dans les appareils portables.
Illustrations d'Andrew Colin Beck





