Processus automatisés

decp-gw

Description : téléchargement des données PES marché de la DGFiP et publication sur files.data.gouv.fr

Code source :

  • hébergement : Gitlab de la mission Etalab
  • langages :
    • bash
    • xslt
  • publicité : confidentiel (contient des données de configuration)

Exécution :

  • serveur : VPS loué par la mission Etalab, Debian Linux 4.9, 8 GB RAM
  • fréquence : tous les jours à 0:45 CET
  • durée :
    • moyenne : 5 minutes

Actions :

  1. ouverture d’un tunnel VPN vers la DGFiP
  2. téléchargement des données disponibles sur le serveur FTP (les données sont supprimées du serveur FTP après téléchargement)
  3. archivage des fichiers XML
  4. correction des anomalies et suppression des champs non pertinents
  5. extraction et enregistrement dans un CSV des SIRETs et URL des profils d’acheteurs trouvés dans les fichiers
  6. fusion de l’ensemble des XML dans un seuil fichier dgfip-pes-decp.xml
  7. publication des nouveaux fichiers et du nouveau dgfip-pes-decp.xml sur files.data.gouv.fr avec rsync (jeu de données)

decp-rama

Description : téléchargement des DECP publiques et publication sur data.gouv.fr

Code source :

Exécution :

  • serveur : instance gratuite de CircleCI (journaux)
  • fréquence : du mardi au samedi, à 4:00 CET
  • durée :
    • moyenne : 50 minutes
    • maximale : 4 heures

Actions :

a. Pour chaque source de données répertoriée :

  1. téléchargement
  2. correction des anomalies
  3. si la source est en XML, conversion vers JSON
  4. fusion de l’ensemble des fichiers de la source en un seul fichier JSON

b. Puis, opérations sur les données consolidées :

  1. consolidation des données de toutes les sources
  2. déduplication des marchés par uid (SIRET + id)
  3. exclusion des marchés inexploitables
  4. correction des anomalies globales (présentes dans plusieurs sources)
  5. production de statistiques
  6. extraction des nouveaux marchés du jour (c’est de loin l’étape la plus chronophage, dont la durée dépend du nombre de nouveaux marchés)
  7. conversion du fichier consolidé et du fichier du jour en XML
  8. conversion du fichier consolidé au format OCDS JSON
  9. publication des données sur data.gouv.fr via l’API data.gouv.fr (jeu de données)
  • les fichiers consolidés JSON, XML et OCDS JSON remplacent les versions précédentes
  • les fichiers du jour JSON et XML sont ajoutés

decp-monitoring

TODO