Description générale du processus#
Composition de la chaîne de traitements#
La chaîne de traitements constituant la base BQSS s’effectue en deux temps :
Pour chaque domaine – i.e. FINESS, SAE, IQSS, Certification –, un pipeline produit les données raffinées correspondantes.
Les données générées dans la précédente phase sont agrégées pour constituer la BQSS.
Ce choix permet de paralléliser certains développements et de faire évoluer les différents domaines de données indépendamment les uns des autres. Pour que ces avantages demeurent, il a également été fait le choix de limiter au maximum les interactions entre domaines de données avant leur agrégation finale.
La plupart des domaines de données sont produits selon un processus similaire en 3 temps :
Acquisition des données en Open Data grâce aux URLs répertoriées par domaine dans le dossier
resources
(voir section Architecture du répertoire).Traitement et agrégation des données (notamment en un fichier clé-valeur et un fichier de métadonnées les documentant).
Validation des données:
via le framework Frictionless et le standard Table Schema.
via pandera
Il est à noter que la 3e phase de validation est optionnelle et est désactivée par défaut dans la CLI.
Schéma de la chaîne de traitements#
Ci-dessous un schéma présente macroscopiquement la chaîne de traitements générant la base BQSS : on y retrouve les différents domaines de données et leur agrégation finale.