Execution du projet#

Le point d’entrée principal pour lancer le pipeline de constitution de la base est une CLI dont le code est situé dans bin/cli.

Pour lancer la CLI, il faut avoir d’abord avoir configuré l’environnement. Une fois cela fait, on peut accéder à la CLI avec:

poetry run cli

Ou en activant le virtualenv python:

poetry shell
cli

Cela devrait afficher l’ensemble des commandes disponibles.

Pipeline complet#

Pour faire tourner l’ensemble du pipeline, utilisez:

cli bqss --force --validate

Upload des données#

Pour faire l’upload sur data.gouv.fr, il faut avoir un token Vault valide avec le role bqss. Le token doit être contenu dans la variable d’environnement VAULT_TOKEN.

Il peut être obtenu en ligne de commande avec:

export VAULT_TOKEN=`vault login -address=${VAULT_ADDR} -method=oidc -token-only role="bqss"`

en preprod#

cli release-data --env=preprod

en prod#

cli release-data --env=prod

Étapes individuelles du pipeline#

Il est aussi possible d’executer individuellement chaque étape du pipeline en utilisant les commandes associées. Par exemple:

cli bqss finess --validate

Permet de ne lancer que la partie relative au FINESS.

Détails des commandes disponibles#

Usage:

cli#

cli [OPTIONS] COMMAND [ARGS]...

bqss#

Lance la constitution de la base BQSS

cli bqss [OPTIONS]

Options

--force#

Force le run de tous les pipelines nécessaires à la constitution de la base

--validate#

Active la validation des données pour chaque domaine de données intermédiaire

certification-14-20#

Lance le pipeline du domaine de données Certification du référentiel 2014-2020

cli certification-14-20 [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent

certification-21-25#

Lance le pipeline du domaine de données Certification du référentiel 2021-2025

cli certification-21-25 [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent

esatis#

Lance le pipeline du domaine de données e-Satis

cli esatis [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent

finess#

Lance le pipeline du domaine de données FINESS

cli finess [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent

infer-iqss-metadata#

Génère une nouvelle version du fichier de metadata des IQSS qualhas pour intégrer les nouveaux indicateurs.

Cette commande essaie de deviner les valeurs des différentes colonnes pour chaque composante d’indicateurs.

Un fichier resources/iqss/new_metadata.csv est crée qui contient le résultat de l’analyse.

cli infer-iqss-metadata [OPTIONS]

iqss#

Lance le pipeline du domaine de données IQSS

cli iqss [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent

release-data#

Dépose les données sur le stockage objet et sur data-gouv.

Requiert qu’un vault token avec le role bqss soit déclarer dans l’envvar VAULT_TOKEN

Le flow est le suivant:

  • cli release-data –from-env local –to-env preprod

  • recette en preprod

  • cli release-data –from-env preprod –to-env prod

cli release-data [OPTIONS]

Options

--from-env <from_env>#

Required Sélectionne la source des données

Options:

local | preprod | prod

--to-env <to_env>#

Required Sélectionne la zone de dépôt dans le stockage objet

Options:

preprod | prod

sae#

Lance le pipeline du domaine de données SAE

cli sae [OPTIONS]

Options

--download, --no-download#

Désactive le téléchargement des données

--validate#

Active la validation des données en fin de pipeline

--force#

Écrase les données brutes si elles existent