Qualité des jeux de données
Comment faciliter la réutilisation d’un jeu de données ?
Ce guide s’adresse aux acteurs publics ou privés qui souhaitent préparer leurs jeux de données à leur circulation — que ce soit en interne ou en open data. Des lignes directrices sont proposées afin de faciliter la prise en main, le croisement et l’exploitation des jeux de données par de le plus grand nombre d’acteurs.
Le partage des données
Le partage de données entre acteurs, que ce soit à l’intérieur ou l’extérieur d’une organisation, est devenu un enjeu économique, politique et culturel. La circulation des données démultiplie leur potentiel d’usage et rend possible leur réutilisation pour des finalités qui n’étaient pas envisagées lors de leur production.
En France, le mouvement de l'ouverture des données publiques se fonde sur ces principes depuis 2011. En juin 2019, la plateforme data.gouv.fr comptait plus de 30 000 jeux de données pour 2 350 organisations. En interne, les organisations ont également pris conscience de l’intérêt que représente la circulation et l’exploitation croisées des données pour leurs activités.
Le critère de qualité des données
Pour autant, la circulation des jeux de données n'entraîne pas directement leur réutilisation. Par exemple, il a été constaté que seuls certains jeux de données publiés sur la plateforme data.gouv.fr étaient régulièrement réutilisés. De la même manière, des organisations constatent que la création d’un data lake n'entraîne pas forcément l’exploitation des données par des équipes tierces.
Ce constat s’explique notamment par les difficultés que rencontrent les réutilisateurs lorsqu’ils souhaitent s’approprier les données partagées. De manière générale, les jeux de données publiés sont produits dans un contexte propre à un processus métier et pour un usage particulier. Par exemple, la base de données des demandes de valeur foncière est historiquement produite par la Direction Générale des Finances publiques dans l’objectif de tenir un fichier immobilier et collecter l’impôt. Cet environnement métier, connu et compris par les agents de l’équipe productrice, n’est pas forcément familier aux individus tiers, qu’ils soient internes ou externes à l’organisation. Ces réutilisateurs peuvent rencontrer de nombreuses difficultés dans la compréhension de la structure du jeu de données et des données elles-mêmes.
Il est indispensable de prendre en compte les pratiques des réutilisateurs en amont de la production des jeux de données. Pour ce faire, une réflexion sur la structure des jeux de données, sur le format des fichiers ou encore sur la documentation doit être menée systématiquement. Ce travail de réflexion facilitera l’appropriation des données par des acteurs tiers et fera gagner du temps à l’organisation productrice, qui n’aura plus à répondre à de nombreuses questions.