Parmi les nombreux secteurs bouleversés par l’essor du web visuel figure celui de la photographie de stock. Avec des milliards d’images capturées, mises en ligne et partagées chaque jour, il est devenu de plus en plus difficile, tant pour les services éditoriaux que pour les services marketing, de trouver les images parfaites à grande échelle et rapidement. Certes, de nombreux outils de reconnaissance d’images prêts à l’emploi excellent dans la détection d’objets, de scènes et de visages, qu’il s’agisse de chats, de panneaux de signalisation, de forêts ou de célébrités, mais qu’en est-il d’un portrait artistique mettant en avant un visage net sur fond flou ? Pas vraiment.
Fondée en 2011 à Berlin, EyeEm est une agence de photographie de nouvelle génération qui utilise la vision par ordinateur et l'apprentissage automatique pour identifier les images en fonction de leurs qualités esthétiques. Et par « esthétiques », nous entendons, pour l'essentiel, celles qui sont agréables à regarder. EyeEm propose une application mobile que les photographes peuvent utiliser pour repérer sur leur smartphone les images les plus esthétiques et les plus commercialement viables, puis les mettre en ligne sur la plateforme de vente de l’entreprise, où elles peuvent être facilement recherchées (grâce à la vision par ordinateur) et achetées par les acheteurs de photos de banque d’images. Comment fonctionne cette approche ambitieuse et artistique de la vision par ordinateur, et pourquoi chaque photographe ou éditeur photo devrait-il l’utiliser pour se faire découvrir ou pour dénicher, respectivement, la prochaine Vivian Maier? Nous avons demandé à Lorenz Aschoff, fondateur et PDG d’EyeEm basé à Berlin, de nous expliquer en détail le fonctionnement d’EyeEm.
En quoi consiste EyeEm ?
Nous développons une IA capable de comprendre l’esthétique et la beauté. Voici le problème que nous essayons de résoudre : depuis l’invention de la capture numérique, des milliards d’images ont été prises, et cette quantité colossale de données ne cesse de s’accumuler. Il est de plus en plus difficile de trouver des images pertinentes parmi toutes celles-ci, et nous ne disposons en réalité d’aucun moyen de les passer en revue et de les sélectionner efficacement. Ce problème concerne autant les particuliers que les professionnels. Nous avons donc développé une application Android et iOS qui s’appuie sur un réseau d’environ 22 millions de photographes, amateurs comme professionnels, qui y publient leurs images. Notre technologie propriétaire de vision par ordinateur et d’apprentissage automatique examine ensuite les images soumises et sélectionne les meilleures, tant sur le plan esthétique qu’en termes de valeur commerciale. Ce produit s’adresse non seulement aux photographes – amateurs comme professionnels – qui souhaitent monétiser les images qu’ils publient, mais aussi aux éditeurs photo des médias et des services marketing qui ont besoin de trouver des visuels pertinents. L’application vous aide également à trouver plus rapidement sur votre téléphone le type de photos que vous recherchez.
Cette dernière fonctionnalité ressemble beaucoup à Google Photos. En quoi EyeEm est-il différent ?
Bon, l’essentiel, c’est que nous nous concentrons sur la photographie de stock – c’est notre modèle économique, contrairement à Google Photos, qui s’adresse aux particuliers –, mais une différence majeure dans le fonctionnement de notre technologie réside dans le fait que nous mettons l’accent sur l’esthétique, en cherchant à saisir la beauté des photos plutôt que de nous limiter à leur contenu. Nous effectuons un travail important de référencement par mots-clés, à l’instar de Google Photos – en étiquetant les images qui comportent des montagnes, des visages, des animaux, des objets, etc. –, mais nos mots-clés sont souvent liés à l’esthétique et à la composition de l’image plutôt qu’à des objets basiques. Pour simplifier, nous prenons essentiellement des images réalisées par les meilleurs photographes du monde et les soumettons à l’algorithme, qui utilise l’apprentissage profond pour identifier les points communs entre ces images d’une grande qualité esthétique.
Nous comparons également certaines de ces images avec celles sélectionnées par des humains, afin de disposer d’un véritable point de référence. En d’autres termes, nous utilisons la technologie pour repérer les perles rares, et celle-ci apprend systématiquement à identifier les points forts de chaque image ; mais ensuite, nous comparons ce que les humains apprécient avec ce que la machine apprécie, presque comme une sorte de renforcement. Et c’est là la clé du succès, en particulier avec l’apprentissage profond. Ensuite, nous pouvons intégrer n’importe quelle autre image que vous venez de prendre et nous pouvons, en substance, nous demander : « Bon, quelle est la probabilité que, d’un point de vue esthétique, cette image trouve un écho favorable dans votre esprit, au point que vous la trouviez belle ? » Cette technologie de base peut ensuite être appliquée, par exemple, pour analyser les images de votre téléphone et faire ressortir les plus belles d’entre elles, ou encore pour vous indiquer quelle version d’une même image, que vous avez peut-être prise cinq ou six fois, est la meilleure.
Est-ce que la machine élabore réellement des règles esthétiques ?
Pas au sens classique du terme, et elle apprend en permanence. C’est un bon exemple de la façon dont la conception humaine des définitions esthétiques se heurte au fonctionnement et à la compréhension de l’esthétique par une machine. Contrairement aux humains, les machines n’ont pas de règles et ne raisonnent pas en termes de concepts esthétiques tels que « la symétrie est belle » ou « le nombre d’or est beau ». C’est bien plus abstrait que cela. Nous, les humains, ne sommes peut-être pas capables de comprendre pourquoi quelque chose est beau, nous le savons simplement, mais la machine est capable d’identifier des motifs qui correspondent à ce que l’on considère comme des qualités esthétiques. À terme, elle trouvera des images symétriques et respectant le nombre d’or, et elle le fera rapidement et à grande échelle, mais il est impossible d’expliquer précisément comment cela fonctionne, car les machines apprennent de manière non exacte et heuristique, ce qui est frustrant pour beaucoup de gens.
Cela pourrait également s'avérer frustrant pour certains éditeurs photo travaillant dans des magazines, sur des sites web ou au sein de services marketing.
Bon, certaines personnes sont clairement agacées à l’idée qu’il existe une technologie capable de les aider à optimiser leur travail, et cela tient malheureusement au fait qu’une grande partie du débat autour de l’IA et du monde du travail est un peu simpliste. Mais, comme je l’ai mentionné, l’un des principaux défis, tant dans le domaine éditorial que marketing, réside dans le fait que lorsque l’on recherche des photos ou des vidéos dans les banques d’images, la qualité esthétique peut varier énormément. Parfois, les résultats de recherche d’images manquent cruellement d’authenticité et il faut énormément de temps pour trouver ce qui correspond réellement à vos besoins. Notre technologie vous garantit de ne voir que le contenu dont l’esthétique correspond à ce que vous recherchez. Elle vous permet de travailler avec davantage de résultats à la fois et de réduire le temps que vous passez à rechercher et à écarter ce qui ne vous convient pas, ce qui vous permet de vous concentrer sur d’autres tâches et de vous consacrer pleinement à la sélection du contenu le plus pertinent.
Et pour ce qui est de rassurer les professionnels de la photo qui pourraient se sentir menacés par des outils d’IA tels qu’EyeEm, nous pensons que cela tient en grande partie à l’interface. Il suffit de faire des suggestions, et les utilisateurs sont libres de les suivre ou non. Nous ne disons jamais « c’est la meilleure image du moment », mais plutôt « que pensez-vous de celle-ci ? » ou « celle-là vous plaît-elle ? », de sorte que la suggestion reste très naturelle.
Mais comment cela influe-t-il sur les résultats de recherche ? Après tout, la beauté est une question de point de vue.
Je pense que l’un des messages clés que nous devons faire passer au sujet de notre outil, c’est que les retoucheurs photo, les photographes, les marques, etc., peuvent l’entraîner et le contrôler en fonction du contenu qu’ils lui fournissent. Vous pouvez l'entraîner à reconnaître n'importe quelle esthétique de votre choix. Ainsi, par exemple, si vous ne lui fournissez que des portraits, vous n'obtiendrez que des portraits en retour. Vous pouvez également affiner la recherche en fonction de la profondeur de champ, des portraits en gros plan ou encore en ne retenant que les photographies en noir et blanc. Cela peut représenter un gain de temps considérable pour les marques qui ont une esthétique spécifique.
Le Boston Consulting Group compte parmi nos clients. Cette entreprise, qui emploie environ 8 000 consultants à travers le monde, a besoin que ceux-ci maîtrisent le langage visuel qu’ils doivent utiliser dans leurs présentations, leurs brochures ou toute autre interaction avec les clients d’un point de vue visuel. Et, aussi brillants que puissent être ces consultants en matière de conseil et d’affaires, ils ne possèdent pas forcément une compréhension instinctive de l’esthétique, en particulier celle qui correspond à l’image de marque.
L'équipe marketing de BCG nous a donc fourni une sélection d'une trentaine d'images couvrant différents thèmes et scènes, etc., qui s'inscrivent dans le cadre d'une récente refonte de l'image de marque menée par le cabinet. Nous avons ensuite utilisé notre technologie esthétique pour créer un filtre de recherche personnalisé à partir des données fournies par l'équipe marketing, de sorte que chaque fois qu'une recherche d'images photographiques est effectuée via notre plateforme, les consultants de BCG obtiennent des résultats conformes à la nouvelle esthétique de la marque.
Vous avez mentionné tout à l'heure qu'EyeEm permettait également de rechercher des images présentant un intérêt commercial. Comment cela fonctionne-t-il ?
Nous travaillons actuellement sur plusieurs approches. Nous venons par exemple de développer un outil appelé IM Social, qui nous permet d’analyser visuellement le compte Instagram d’une marque : ce qu’elle a publié par le passé, l’écho suscité par ces publications. À partir de là, nous pouvons identifier le style esthétique qui trouve un écho auprès de ses abonnés, puis commencer à prédire ou à suggérer des images susceptibles de susciter l’intérêt de ces derniers à l’avenir. Nous travaillons également à l’utilisation de cette technologie pour fournir des recommandations intelligentes dans le cadre d’une campagne publicitaire, que ce soit sur Instagram, Facebook ou en ligne. En reprenant ce même principe, il serait également possible d’enrichir les données esthétiques avec les données de conversion issues de publicités réelles, ce qui permettrait non seulement de prédire les images en adéquation avec votre marque, mais aussi celles qui généreront un bon taux de conversion.
Quelle est la prochaine étape pour EyeEm ?
Nous venons tout juste de nous lancer dans la vidéo, mais c’est beaucoup plus complexe car les vidéos contiennent plusieurs scènes et angles de prise de vue, ce qui pose de nombreux défis à relever. Au final, nous procédons en traitant cela comme une séquence de photos. Nous développons également un prototype permettant de fournir des critiques esthétiques générées par une machine. En d’autres termes, il s’agit de suggestions pour cadrer et ajuster la composition des photos d’une certaine manière, ou encore de conseils sur les types de filtres et de retouches de couleurs à appliquer pour améliorer la qualité esthétique de l’image. Ce n’est pas vraiment notre objectif principal pour l’instant, mais ce sera certainement un défi intéressant que de traduire la manière abstraite dont une machine appréhende l’esthétique en termes humains et en actions concrètes qui aient du sens. Cette question de l’interface idéale entre l’IA et les humains est très complexe, et personne n’a encore tout à fait réussi à la perfectionner.
par Marina Esmeraldo





