Mon compte Je m'abonne
logo Fiches pratiques

Quel sont les principaux postes pour débuter un projet DATA ?

Publié par Hélène Meinerad le | Mis à jour le
Quel sont les principaux postes pour débuter un projet DATA ?

Débuter un projet data n'est pas une mince affaire. Comme tout projet il faut supporter des coûts et savoir s'organiser, prioriser les tâches et se fixer des étapes.

Quels sont les principaux postes budgétaires pour débuter un projet DATA ?

La structure de coût élémentaire d'un projet data : les différents postes budgétaires et leur évaluation.

Le résumé introductif : Un projet data, un type de projet dont il conviendrait de définir la nature et le périmètre exact, met en oeuvre des outils techniques et informatique, des logiciels et des services et surtout des compétences variées mais parfaitement identifiées. Cet article tente de décrire la structure de coût élémentaire d'un projet data. Evaluer les coûts d'un projet est une tâche complexe. Il existe plusieurs méthodes classiques d'évaluation générale de ces coûts, bien décrites dans la littérature spécialisée sur la gestion de projet.

On peut citer les méthodes :

  • Estimation par analogie
  • Estimation paramétrique
  • Estimation ascendante

Il serait nécessaire de décrire spécifiquement le projet data dont on veut évaluer les coûts pour choisir la meilleure méthode adaptée au type de projet considéré . En intégrant de plus la maturité « data » des décideurs et le contexte et la nature de l'organisation qui portera le projet.

En effet, les projets dits de data science ou de data management peuvent être extrêmement variés dans leur objectifs, leurs ressources, humaines et techniques et leur durée. Il n'y a pas deux projets équivalents. La data science est avant une ingénierie plus souvent proche de l'artisanat avec un fort caractère expérimental que de la production industrielle et ses processus normalisés. Il n'y a pas de budget moyen à envisager mais plutôt une liste de postes budgétaires à considérer généralement.

Indépendamment de la méthode d'évaluation des coûts retenue, cette liste contiendra presque nécessairement les éléments fondamentaux d'un projet data générique. Ainsi on pourra décrire la structure de coûts suivante :

  • Les coûts des compétences et des ressources humaines,
  • Les coûts d'infrastructure,
  • Les coûts de licence logiciel et des services,
  • Les coûts de gestion de projet et des outils associés
  • Les coûts de maintenance et d'évolution.

Les coûts des compétences et des ressources humaines est très souvent le poste le plus lourd

Le premier poste de coût et de loin est souvent celui des ressources humaines. La baisse continue des autres coûts et notamment de l'informatique et des télécoms font de la matière grise et de l'expérience les ressources les plus coûteuses d'un projet de data science.

Le développement du « cloud computing » et de l'offre de logiciel sous forme de service (SaaS) ont en effet considérablement fait baisser les coûts des infrastructures par la mutualisation et la centralisation. De plus il existe une forte tension sur les salaires des compétences en data science et en « data engineering » sur le marché depuis quelques années. Les compétences requises pour un projet de data science ou de data management regroupent au minimum les quatre profils suivants :

  • Un chef de projet : environ 500 à 800 €HT/j
  • Un statisticien ou un data scientiste : environ 650 à 1 500 €HT/j selon l'expérience
  • Un expert métier : variable
  • Un data ingénieur : environ 800 à 1500 €HT/j selon l'expérience

Les coûts de l'infrastructure informatique et des transferts de données

Les coûts de l'infrastructure (serveurs/réseaux) dépendront principalement de deux types de besoins : Le stockage des données donc la taille des data sets et la puissance de calcul mobilisée et la durée de cette mobilisation.

Il existe deux possibilités pour les outils de stockage et de calcul nécessaires à la réalisation du projet data.

Une approche dite « On premise » c'est-à-dire une solution logicielle installée et paramétrée directement dans l'infrastructure de l'entreprise. Ce sont des ressources dédiées ou non mais dont les coûts sont intégralement supportés par l'entreprise indépendamment des usages réels. L'autre approche est la multiplication des services délivrés dans le "Cloud", via un fournisseur spécialisé au sein d'un Datacenter externalisé. Ce « Cloud Computing » est maintenant la stratégie qui s'impose généralement dans la conduite des projets data car cela permet d'atteindre des coûts de stockage très faibles de quelques euros par Giga octet et par mois et un paiement à la consommation des ressources via le concept de machine virtuelle : l'opérateur ne paie que ce qui est utilisé, souvent facturé à la minute. Cette approche permet aussi a de nombreux fournisseurs de proposer une couche de services parfois très spécialisés comme l'intégration des données, des ro-« bots » ou des « intelligences artificielles » comme SIRI ou WATSON, de la data visualisation ou des traitements automatisés (reconnaissance de formes, de la voix, du texte et des sons...) au sein de l'offre d'hébergement des données.

Le coût des licences et des services utilisés

Une fois les données stockées, sécurisées et rendue disponibles, il faut exploiter des services qui opèrent ces données et produisent de la valeur.Le coût des licences peut varier considérablement en fonction des solutions à mettre en oeuvre, le prix associe souvent une partie fixe annuelle et une partie variable en fonction de l'utilisation. Une solution CRM commencera à quelques dizaines d'euros par mois pour évoluer en fonction de la taille de la base de données et des services associés jusqu'à des dizaines de milliers d'euros par mois. De la même façon les solutions de BI pourra commencer par une version « light » gratuite, c'est à dire avec des capacités ou des fonctionnalités limitées et monter jusqu'à plus de 1 000 € par poste utilisateur. Certains éditeurs proposeront aussi une tarification « serveur » ou une infrastructure dédiée ou garantie en fonction de la puissance de la ou des machines exploitées (taille de la mémoire vive ou RAM, espace et type de stockage, vitesse de transfert des données, Dans le cadre d'un projet de big data ou de Business Intelligence (BI), il faut prévoir au minimum une licence pour la base de données, une pour la solution d'ETL (« Extract, Transform & Load » ou solution d'extraction de donnée) et enfin une pour l'outil de restitution (tableaux de bords, bases de données...etc.). Certains éditeurs d'outils de gestion de données proposent des solutions « gratuites ». Si elles semblent attractives, elles deviennent inévitablement payantes lorsque vous souhaiterez augmenter le nombre d'utilisateurs ou la puissance des machines nécessaires. La solution du mode SaaS (« software as a service » délivré dans le cloud) avère particulièrement adaptée pour variabiliser les coûts en fonction de la montée en puissance du projets ou des besoins au cours du temps. La totalité de la chaine de traitement des projets de data science, data management ou data visualisation sont maintenant disponibles dans le cloud. Très peu chers initialement, les coûts évoluent la plupart du temps par le volume de données traitées, le nombre de postes utilisateurs ou encore la consommation effective du service (calculs, VM, GPU...).Une simulation des consommations futures permettra de prévoir les coûts variables qui s'ajouterons aux charges fixes de licence. Le niveau de service et d'assistance est aussi un paramètre de variation des prix facturé par les prestataires spécialisés. La compétence des équipes projet est ici déterminante pour maitriser les coûts de supports et d'assistance, pour certains éditeur cette couche de service est partie intégrante de leur modèle d'affaire (Adobe, Salesforce), d'autres comme Google ou AWS ont choisi un modèle basé sur le self-service et une virtualisation maximale des services délivrés.

Les coûts de de mise en place et de management du projet

Les coûts de mis en place du projet vont de la rédaction des spécifications fonctionnelles et techniques à la documentation et à la formation des utilisateurs. On peut citer les grandes étapes de la gestion soit :

  • Le cadrage et le suivi du projet,
  • Les acquisitions, extraction et préparations des données
  • Les analyses statistiques et les développements informatiques
  • Les tests et le recettage de la solution
  • La livraison du projet, de l'application ou des données,
  • -La formation des utilisateurs exploitants.
  • La documentation de la solution

Cette mise en place et cette animation du projet est gérée par le chef de projet sous le contrôle d'un directeur de mission ou d'un donneur d'ordre. Des outils spécifiques de gestion de projet là aussi disponibles en mode SaaS permettront de fiabiliser les taches de gestion et d'animation du projet comme Trello, Slack ou Microsoft Teams jusqu'à des outils spécialisés de partage de données structurées à l'instar de GitHub pour la production du code ou MSP pour la distribution des mises à jour applicatives.

Les coûts de maintenance et d'évolution du projet

Un projet Data est très souvent un projet qui évolue avec les besoins et l'exploitation qui en est faite. Une fois le projet terminé, il faudra prévoir un coût de maintenance de l'infrastructure, de la maintenance des logiciels et de leur implémentation. Les coûts de licence des solutions spécialisées en mode SaaS sont souvent annualisés et intègrent les mises à jour et correctifs de bugs. La formation est enfin un poste de cout qui peut s'avérer significatif ; Gardon s présent à l'esprit cette idée simple : ce n'est pas parce qu'un outil est disponible qu'il est utilisé.

Cette réponse vous a été donnée par Hélène Meinerad, vice-présidente de Léo Burnett/Chemistry, agences membres de l'AACC (Association des agences-conseils en communication).