search mail facebook github rss rss twitter google + cross link

data.gouv.fr - documentation

Resultats de recherche pour ""

Introduction

Principe

Le moissonnage est une technique de récupération automatisée de metadonnées en “pull” : c’est le serveur data.gouv.fr qui va chercher les metadonnées sur les sites distants.

Diagramme de séquence d'un moissonnage

Moissonnage vs. API

La publication par l’API vous donne un contrôle total sur le contenu de chaque champ, le moment de la soumission… tandis que le moissonnage, s’il ne nécessite pas de développement spécifique sur votre plateforme, est un fonctionnement fortement contraint.

  Moissonnage API
Pré-requis Métadonnées dans l’un des formats supportés Capacité de développement
Déclenchement Contrôlé par data.gouv.fr Déclenché au besoin
Champs Modèle imposé par protocole Au choix du développeur

Moissonnage vs. geo.data.gouv.fr

En plus du moissonnage et de l’utilisation de l’API, il existe un autre moyen automatisé de récupération des métadonnées sur data.gouv.fr : geo.data.gouv.fr, anciennement inspire.data.gouv.fr. Ce site pivot permet de récupérer les métadonnées de jeux de données exposés selon la directive européenne Inspire (obligation légale de publication des metadonnées geographiques selon le modèle de données ISO 19115, au format de données ISO 19139).

Ces jeux de données geospatiaux, lorsqu’ils proviennent de geo.data.gouv.fr, auront droit à une fiche de jeu de données très riche, alimentée par l’ensemble des métadonnées Inspire. Lorsque c’est le cas, il est nécessaire de s’assurer qu’ils ne remontent que par geo.data.gouv.fr et ne produisent pas de doublons. Il peut être nécessaire d’utiliser les options de filtrage de votre moissonneur ou l’option Inspire dédiée si elle existe.

Vous pouvez consultez la documentation détaillée correspondante si vous êtes dans ce cas de figure.

Moissonneurs disponibles

Aujourd’hui, data.gouv.fr peut moissonner les plateformes ou formats suivants :

Métadonnées communes

Les jeux de données moissonnés possèdent les attributs suivants dans leur champ extras pour la traçabilité :

Attribut Contenu
harvest:domain Nom de domaine moissoné
harvest:source_id Identifiant technique du moissonneur
harvest:remote_id Identifiant distant du jeu de données
harvest:last_update Date du dernier moissonnage

Options

Chaque type de moissonneur possède des options spécifiques, ainsi que des options communes. Aujourd’hui, la seule option commune est la possibilité de filtrage.

Filtrage

La filtrage donne la possibilité d’inclure ou d’exclure un sous-ensemble de jeux de données du moissonnage.

Lorsqu’un ou plusieurs filtres sont déclarés, seuls les jeux de données remplissant toutes les conditions (ET) seront traités.

Portail multiproducteur : restriction à une organisation

Exemple de restriction à une seule organisation

Exclusion de mots-clés

Exemple d'exclusion de mots-clés

Combinaisons multiples

Exemple de combinaison de filtres

Rapport de moissonnage

Chaque moissonnage donne lieu à un rapport accessible depuis l’interface d’administration de data.gouv.fr.

Il vous permet de comprendre ce qu’il se passe et, le cas échéant, de corriger les erreurs existantes. Il vous permettra aussi de vérifier que le filtrage se fait bien si vous en avez saisi un.

Vue synthétique

Vue synthétique du rapport de moissonnage

Détails d’un jeu de données

Détails d'un jeu de données du rapport de moissonnage

En cas d’erreur

Erreur sur un jeu de données du rapport de moissonnage

  • 1 correspond à l’erreur technique formulée de façon compréhensible pour un humain
  • 2 contient la “stacktrace” de l’erreur qui servira à ceux qui développent des moissonneurs ou contribuent aux existants.

Limites

Le moissonnage n’a aucune connaissance de l’usage que vous faites du modèle de données. Il s’appuie uniquement sur les spécifications de chaque protocole ou plateforme pour récupérer les informations.

Il y a donc certaines limitations techniques liées aux spécificités de chaque plateforme (décrites sur la page de chaque moissonneur).

Certaines limitations sont communes et détaillées ci-dessous.

Correspondances des métadonnées

Certains champs du modèle de data.gouv.fr possèdent un équivalent qui peut être sous-spécifis dans certains protocoles ou sur certaines plateformes, ou bien alors être spécifié différement, sur plusieurs champs… Dans ce cas, la valeur du champ est récupérée en “best effort’, c’est-à-dire qu’elle va être devinée en fonction des élements à disposition. Se référer à la page de chaque moissonneur pour savoir lesquels sont dans ce cas pour chaque implémentation.

Suppression à la source

Pour le moment, les moissonneurs ne gèrent pas la suppression à la source et ce pour éviter les suppressions en masse par erreur, ce qui entrainerait une perte des statistiques, des discussions et des ressources communautaires de chaque jeu de données.

Dans le cas d’une suppression ponctuelle, nous vous invitons à supprimer manuellement le jeu de données moissonné qui a perdu sa source.

Dans le cas d’une suppression massive de jeu de données, veuillez nous contacter afin de trouver une solution satisfaisante.

Changement d’identifiant

Les moissonneurs utilisent les identifiants de jeu de données distants pour retrouver leurs données entre deux moissonnages. Il est donc important de veiller à ce qu’un jeu de données conserve son identifiant au fil du temps et des modification successives. Dans le cas contraire, cela donnera lieu à la création d’un doublon.

Il faut donc aussi veiller à ne pas supprimer puis recréer un jeu de données ou une ressource pour faire sa mise à jour.

✎ Editer cette page