Titus ZAHARIA. Interprétation d'images. Rencontre

 

 

Titus Zaharia est professeur à Télécom Sud Paris à Evry.

 

Il nous décrit l'hallucinante évolution du rapport machine homme dans le domaine des images. Et donne quelques pistes pour l'avenir.

Quel est ton sujet de recherche ?

 

Je travaille sur l'indexation des images avec un accent particulier sur le contenu des images 2D, 3D, vidéo, contenu graphique et/ou animé (jeu vidéo..). Il s'agit de créer des méthodes de représentation, de modélisation de tous ces contenus avec indexation, description, compression, transmission puis interprétation sémantique et analyse.

Un exemple : tu me donnes une image sans indice et la machine reconnaît un tramway, une cathédrale..

 

Depuis 30 ans, le domaine de la vision par ordinateur est un rêve de la recherche, l'interprétation de scènes pour dire ce qu'elles contiennent. Et le calcul par les machines a considérablement évolué. Depuis 2 ans, l’augmentation considérable des capacités de calcul des machine, l’émergence du cloud computing, rendent possible la mise en œuvre d’algorithmes de plus en plus complexes et sophistiqués. Tout cela fait dire qu'aujourd'hui il est possible d'aller vers une interprétation automatique de l'image.

Par un algorithme, c'est à dire un apprentissage statistique de document, on arrive à mettre un « label sémantique » sur des images.

Comment une machine peut-elle faire cela?

 

On arrive à interpréter des images à partir de pixels bruts vers des concepts sémantiques. Ce processus d'apprentissage comprend deux étapes :

 

1/ cela suppose une base d'images qui sert de « vérité terrain ». dans chaque image on va préciser quel concept elle contient. Distinguer dans une base de dizaine de milliers d'animaux, le chat du zèbre et fournir des images variées de cet animal sous plusieurs angles par exemple.

 

2/ L’algorithme d'apprentissage devient une classification de descripteur par rapport à ce label sémantique. Puis il y a généralisation et enquête. On lui donne des images reconnaître.

 

La fiabilité dépend de la quantité d'images d'apprentissage bien sur.

 

En temps réel, la machine décrypte les mouvements alentours et les qualifie pour signaler un danger au non-voyant.
En temps réel, la machine décrypte les mouvements alentours et les qualifie pour signaler un danger au non-voyant.

Qu'est-ce qui est demandé à la machine ?

 

D'abord de savoir décrire (bas niveau de pixels) puis dans un deuxième temps savoir agréger ces descriptions (couleurs, histogramme, points d'intérêts..) vers une sémantique.

 

 

Votre description, le principe, les exemples sont tout à fait fascinants ! Vers quelles recherches se dirige-t-on?

 

Il s'agit d'un sujet chaud sur lequel Google notamment travaille beaucoup

Un exemple : mes enfants ont 4 ans et 10 mois, ils ont tous deux 100 fois plus d'images que moi à 18 ans. Ces photos, on ne veut pas les perdre ! Pour y accéder, il faut des métadonnées pertinentes pour les classer, contextualiser.

Penser des critères organisables pour ses propres données est un exemple d'application domestique.

Professionnellement pour les aveugles, on peut imaginer partager des communautés de données, fournies par des amis voyants et indiquant comment se repérer en ville. Les applications sont très nombreuses.