top of page

Méthode

Cette page du site est dédiée à l'exposition des méthodes utilisées pour obtenir les données finales relatives précisément à la circulation temporelle et géographique des images.

L'objectif que nous souhaitions atteindre avec la création d'un rapport statistique était d'offrir à d'éventuels chercheurs ou personnes intéressées à l'avenir, la possibilité d'utiliser une méthode de travail fonctionnelle qui puisse aboutir à une analyse et une représentation de données de qualité et accessible.

La méthodologie, qui sera ici présentée de manière succincte, est

détaillée plus amplement dans le rapport statistique, disponible au format

PDF téléchargeable en cliquant sur le bouton ci-dessous.

Contexte du projet

MAGAZINES 

Schermata 2021-05-12 alle 09.48.09.png

JSON EXPLORER

Schermata 2021-05-12 alle 09.48.47.png

CLUSTERS

Schermata 2021-05-12 alle 09.49.50.png
Schermata 2021-05-12 alle 09.49.54.png

Magazines

Le format IIIF (International Image Interoperability Framework) a été créé pour permettre un accès libre aux images dans les bibliothèques numériques.

IIIF peut, plus généralement, désigner la communauté internationale IIIF chargée de promouvoir l'interopérabilité.

En effet, avant la création des formats d’échanges communs, les bibliothèques numériques souffraient de problèmes liés à l'inefficacités, aux redondances et aux dispersions.

Les  magazines sont principalement issus de la base de données Gallica, et des archives numérisées de l'Université d'Heidelberg. 

JSON Explorer : manifest.json

JSON : acronyme de JavaScript Object Notation 

En informatique et plus précisément dans le domaine de la programmation Web, JSON est un format adapté à l'échange de données entre applications client / serveur. 

manifest.json 

C'est  ainsi que la plateforme Visual Contagions Explore intitule les fichiers JSON qu'elle crée en y regroupant les clusters qu'elle détecte. 

Visual Contagions Explore : une plateforme hébergée par le site Visual Contagions qui permet de trouver, dans un premier temps, les images à l'intérieur des manifestes, mais surtout, dans un second temps, d'aboutir à une clusterisation des images. 

Clusters

Dans cette étude, nous définissons un « cluster » comme un groupe d'images qui ont été séparées du groupe général comme étant identiques ou presque identiques (une jauge de similarité a, à cet effet, été fixée à 0,92 ; sachant qu’une jauge fixée à 1 ne détecterait que des images strictement identiques entre elles). Malgré cela, un certain nombre de clusters ont été formés avec des images seulement similaires, voire foncièrement différentes les unes des autres. D’où la présence, dans le rapport statistique, d’un travail de classification des clusters.

La clusterisation est la phase de création d'un cluster. Elle est réalisée par un algorithme d’apprentissage automatique.

Méthode

Pour obtenir des données sur la circulation spatiale et temporelle des images, il est nécessaire de passer par plusieurs phases. Cette section du site se veut un guide de la méthode à utiliser pour obtenir des données analysables par l'utilisateur du site.

On peut diviser cette méthodologie en 2 parties, la première concernant l'utilisation de la plateforme proposée par Visual Contagions, capable d'effectuer la clusterisation des images, la seconde concernant l'utilisation de Jupyter Notebooks capables d'exécuter des lignes de code afin d'effectuer l'analyse des données des clusters précédemment obtenus.

Plateforme : Visual Contagions Explore

L'intérêt premier de la plateforme est certainement la possibilité de clusterisation des images qu'elle propose.   

De plus, la plateforme Visual Contagions Explore permet notamment d'analyser les manifestes, ou encore d'extraire des images. 

 

Nous pouvons diviser le travail sur la plateforme en quatre phases :

1) La première phase consiste à télécharger les URLs du manifeste sur la plateforme Visual Contagions Explore.

 

2) La deuxième phase consiste en l'analyse, par la plateforme, des manifestes insérés, dans le but d'en extraire automatiquement les images des magazines relatifs à ces manifestes.

 

3) La troisième phase, grâce à l'utilisation d'un algorithme d'apprentissage automatique, permet de trouver des images graphiquement similaires, et de les regrouper au sein de clusters. À cet effet, les résultats de la clusterisation varient fortement. De sorte que l'on peut aboutir à des clusters d'images absolument identiques, à des clusters d'images seulement similaires, mais encore à des clusters d'images « incohérents ».

 

4) La quatrième phase permet à l'utilisateur de faire un choix quant à l'utilisation des données :

-  Visualiser les clusters créés directement sur la plateforme

ou

-  Télécharger les clusters, sous la forme d'un fichier JSON.

Traitement des données : Jupyter Notebooks

S'agissant de l'analyse des données obtenues après la clusterisation d'images réalisée par la plateforme, nous proposons un ensemble de Jupyter Notebooks, que nous avons rédigés, susceptibles d'aider la recherche de circulations d'images. Les systèmes d'informatique conversationnelle, tels que Jupyter, sont un très bon moyen de faciliter l'analyse de telles données. 

  • Le système utilisé dans le cadre de ce projet est Jupyter Notebooks, une application web open-source qui permet la création de documents interactifs.

  • Le langage de programmation utilisé pour la création des requêtes est Python.

Le premier de ces Jupyter Notebooks permet la création d'un fichier CSV regroupant ensemble notamment les URLs des images clusterisées, et les numéros des différents clusters découverts par la plateforme. 

 

Le deuxième de ces Jupyter Notebooks permet, via un certain nombre d'outils, une analyse statistique de l'ensemble des images clusterisées ; notamment le calcul de la médiane du nombre d'images par cluster. 

Le troisième de ces Jupyter Notebooks s'intéresse à la diffusion spatiale des images clusterisées.

Il permet la création d'un fichier CSV où sont réunis les différents numéros de clusters et des informations d'ordre spatial relatives aux images clusterisées. Afin de rendre possible la création d'un tel fichier, des lignes de code de ce Jupyter Notebook permettent d'opérer une fusion entre le fichier CSV obtenu grâce au premier Jupyter Notebook, et le classeur d'origine (fichier XLSX) d'où proviennent les URLs des manifestes. 

Il permet aussi la création d'un fichier CSV classant les clusters dans un ordre décroissant, des plus aux moins spatialement diffus. 

Quels sont les résultats obtenus ? 

En suivant cette méthode, il est donc possible d'obtenir des données très intéressantes sur les éléments qui permettent de trouver quelles sont les circulations spatiales et temporelles des images. Pour observer en détail les données que nous avons obtenues, un espace spécial a été créé sur ce site décrivant le rapport statistique.

 

Pour en savoir plus sur les résultats de la méthode appliquée, cliquez ci-dessous !

Aspects Legaux

Le projet Visual Contagions utilise l’analyse d’images pour établir des circulations d’images provenant de revues illustrées de  natures différentes. Un élément intéressant à considérer est le droit d'auteur et la question de la propriété intellectuelle de ces images. Dans notre cas, les images considérées ont été produites et/ou proposées entre 1920 et 1930, mais le travail pourrait aussi se faire sur des éléments plus récents. Il est donc important de se demander s'il existe des limites aux règles du droit d'auteur (si oui, quelles sont-elles ?) et s'interroger sur d'éventuelle alternative. 
 
Data Mining 

Le projet a analysé les images par le biais de techniques dites du data mining et ainsi bénéficié de l’exception de droit d’auteur

“d’utilisation d’oeuvres à des fins de recherche scientifique“ prévue à l’art. 24d LDA.

Publication des résultats

La publication des résultats de l’analyse bénéficie de l’exception de citation prévue à l’art. 25 LDA, ou l'exception de l’inventaire prévue à l’art. 24e LDA.

La publication, co-réalisée entre le ce groupe de travail et l’Université de Genève, utilise la licence Creative commons BY et les résultats sous-jacents la Creative commons 0.
 

 

Ces informations sont fournies à titre informatif uniquement et ne doivent pas être interprétées comme des conseils juridiques.

Comment Visualiser les données obtenues ?

L'un de nos objectifs était de rendre les données collectées utilisables même par des profanes. Il fallait donc imaginer une plateforme pouvant rendre les données accessibles et consultables, via une interface accessible.

 

Le choix final s'est porté sur une carte interactive qui, grâce à un système de filtrage convivial et à son retour graphique, permet aux internautes ayant des connaissances informatiques même limitées de pouvoir utiliser le service.

 

 

Pour en savoir plus sur le projet de cartographie, cliquez ci-dessous !

License CC-BY

bottom of page