MindMap Gallery Architecte DATA/Data Engineer
The "Architecte DATA/Data Engineer" mind map navigates the dynamic intersection of data architecture and engineering within the realm of information technology. This map serves as a guide for data professionals, architects, engineers, and individuals seeking insights into the strategic planning, design, and implementation of robust data systems.
Edited at 2023-11-09 03:21:37La démo DBT commence par la création d'un projet vide et explore le contenu d'initialisation pour aider les utilisateurs à devenir des utilisateurs avancés de DBT. Ensuite, Connectez la base de données et lancez une démonstration qui montre étape par étape la puissance et la flexibilité de DBT. Grâce à des actions pratiques et des explications, le public peut comprendre DBT en profondeur, maîtriser ses techniques d'utilisation et améliorer l'efficacité du développement.
The "Architecte DATA/Data Engineer" mind map navigates the dynamic intersection of data architecture and engineering within the realm of information technology. This map serves as a guide for data professionals, architects, engineers, and individuals seeking insights into the strategic planning, design, and implementation of robust data systems.
BI@CAFAT Les cartes mentales couvrent de nombreux aspects. Les études de cas sont la base et découvrent des problèmes et des lois grâce à des analyses de cas pratiques. La conception architecturale garantit la stabilité du système, les outils et la technologie fournissent un soutien. L'entrepôt de données stocke de grandes quantités de données et ETL / ELT est responsable du traitement et de la conversion des données. Enfin, les résultats de l'analyse sont présentés par le biais de rapports qui fournissent une base pour la prise de décision et permettent une articulation efficace entre l'analyse des données et les décisions commerciales.
La démo DBT commence par la création d'un projet vide et explore le contenu d'initialisation pour aider les utilisateurs à devenir des utilisateurs avancés de DBT. Ensuite, Connectez la base de données et lancez une démonstration qui montre étape par étape la puissance et la flexibilité de DBT. Grâce à des actions pratiques et des explications, le public peut comprendre DBT en profondeur, maîtriser ses techniques d'utilisation et améliorer l'efficacité du développement.
The "Architecte DATA/Data Engineer" mind map navigates the dynamic intersection of data architecture and engineering within the realm of information technology. This map serves as a guide for data professionals, architects, engineers, and individuals seeking insights into the strategic planning, design, and implementation of robust data systems.
BI@CAFAT Les cartes mentales couvrent de nombreux aspects. Les études de cas sont la base et découvrent des problèmes et des lois grâce à des analyses de cas pratiques. La conception architecturale garantit la stabilité du système, les outils et la technologie fournissent un soutien. L'entrepôt de données stocke de grandes quantités de données et ETL / ELT est responsable du traitement et de la conversion des données. Enfin, les résultats de l'analyse sont présentés par le biais de rapports qui fournissent une base pour la prise de décision et permettent une articulation efficace entre l'analyse des données et les décisions commerciales.
Architecte DATA / Data Engineer
APEC
Data Architecte BIG DATA
L’architecte data préconise les solutions techniques à mettre en œuvre dans les projets nécessitant la collecte, le stockage ou l’utilisation de données en masse (big data). Il·elle intervient ainsi sur de nombreux projets et met en place des solutions génériques pour faciliter le travail des équipes de développeurs. Cela lui permet notamment d’avoir une vision globale des données de l’entreprise. Travaillant dans un écosystème qui évolue rapidement, il·elle assure également la veille technologique autour du big data.
COMPÉTENCES TECHNIQUES DEMANDÉES
Maîtrise de l’environnement Hadoop/Spark/Yarn (que ce soit en local ou sur cloud)
Maîtrise des systèmes d’exploitation (Unix, Windows, etc.)
Maîtrise de langages de programmation (C++, Java,Python, R, Scala, etc.)
Maîtrise en base de données (SQL/NoSQL) et gestion de base de données
Maîtrise d’un outil de gestion de flux (Kafka, Flink, etc.)
Bonne compréhension et connaissance des interfaces réseaux et de l’infrastructure matérielle
Connaissance de la réglementation concernant les données personnelles et des principes de cybersécurité
Connaissance des solutions de manipulation des données ETL/ELT
Bonne compréhension de la stratégie d’entreprise et des besoins business
Activités Principales
COLLECTE, STOCKAGE ET IDENTIFICATION DES DONNÉES
Cartographier les données de l’entreprise et mettre en œuvre la construction d’une plateforme de données (data lake, etc.) si celle-ci n’existe pas déjà
Recueillir les attentes utilisateurs et définir les différentes briques qui vont répondre à leurs besoins
Préconiser notamment des solutions techniques à mettre en place dans la collecte des données (en termes de transfert, format, fréquence d’actualisation, sécurité, etc.)
Préconiser aussi des solutions techniques à mettre en place dans le stockage des données (en termes de technologie ou de service utilisé – cloud ou serveur local –, dimension des serveurs, mise à disposition des données, gestion des accès, optimisation des requêtes, etc.)
Préconiser des solutions techniques permettant de s’engager sur une qualité et une continuité de service selon les contraintes (par exemple : temps de réponse de l’application, etc.)
Analyser l’impact des solutions retenues selonle besoin métier
FACILITATION DE L’USAGE DES DONNÉES DANS L’ENTREPRISE
Mettre en place des outils génériques utilisables sur l’ensemble des projets
Homogénéiser l’ensemble des développements
Documenter cette donnée de façon fonctionnelle (schéma d’architecture, etc.)
CONFORMITÉ, VEILLE ET SENSIBILISATION DES UTILISATEURS AUX PROBLÉMATIQUES DE LA DATA
Être garant de la conformité des solutions développées au regard du RGPD
Assurer une veille technologique sur les outils big data
Assurer un contact avec les éditeurs de solution pour suivre les nouvelles fonctionnalités ou la gestion des anomalies
Participer à des conférences ou à des colloques sur les sujets du big data
Diffuser la culture « data » dans l’entreprise
Data Engineer
Le·la data engineer est un·e développeur·euse informatique qui a pour mission de mettre en place la collecte et la mise à disposition des données au sein de l’entreprise. Il·elle est également en charge d’industrialiser et mettre en production des traitements sur les données (par exemple : mise à disposition de tableaux de bords,intégration de modèles statistiques) en lien avec les équipes métiers et les équipes qui les analysent. Les data engineers ont la possibilité de se spécialiser techniquement, même si cela ne représente pas la majorité des cas. Les champs de spécialisation touchent à l’intelligence artificielle (auquel cas les data engineers qui s’occupent d’industrialiser de tels modèles sont appelés machine learning engineer) ou bien dans les techniques de stream (temps réel). Pour ce qui concerne l’industrialisation de modèles de machine learning, ils·elles doivent notamment avoir des connaissances en statistiques et mathématiques. Aussi, du fait de leurs compétences dans le champ de la manipulation des données mais aussi parfois des statistiques, les data engineers peuvent avoir à inter- venir sur la partie traitement de données lorsque l’entreprise qui les recrute ne dispose pas de compétences en data science. Les entreprises n’embauchent pas toujours de data engineers en interne. Un certain nombre d’entre eux·elles est recruté via des sociétés de services et ils·elles doivent, de fait, pouvoir s’adapter rapidement aux contextes de travail dans lesquels ils·elles interviennent pour remplir leurs missions. Dans ce cas-là, ils·elles peuvent aussi être en relation directe avec des commerciaux afin de calibrer en termes de coûts et délais de livraison, leurs interventions.
COMPETENCES TECHNIQUES DEMANDEES
Maîtrise de l’environnement Hadoop/Hive/Spark (que ce soit en local ou dans le cloud)
Maîtrise des bases de données (SQL/NoSQL) et gestion de bases de données
Maîtrise de langages de programmation (C++, Scala, Java, Python, etc.)
Maîtrise d’un outil de gestion de flux (Kafka, Flink, etc.)
Maîtrise les méthodes de développement agile
Connaissance de la réglementation concernant les données personnelles et des principes de cybersécurité
Maîtrise des systèmes d’exploitation (Unix, Windows, etc.)
Connaissance des solutions de manipulation des données ETL/ELT
Connaissance de base en machine learning et intelligence artificielle
Maîtrise en statistique ou mathématiques
ACTIVITÉS PRINCIPALES
ACHEMINEMENT DE LA DONNÉE
Recueillir les besoins métiers des différentes unités demandeuses et utilisatrices de solutions de collecte et stockage de la donnée
Développer les solutions techniques de collecte de la donnée via des API
Développer des solutions techniques de stockage de la donnée (Hadoop)
Réaliser les tests unitaires et d’intégration
Mettre en place et maintenir les batchs, c’est-à-dire les automatisations d’une série de traitement
MISE À DISPOSITION DES DONNÉES AUX ÉQUIPES UTILISATRICES
Industrialiser et automatiser le nettoyage de la donnée selon les spécifications retenues
Gérer, maintenir et documenter de multiples bases de données (via l’importation de données externes en open data ou de données internes par exemple)
Gérer le cycle de vie de la donnée conformément aux directives inscrites dans le RGPD.
Assurer le suivi de production et la maintenance
MISE EN PRODUCTION DE MODÈLES STATISTIQUES DANS LES APPLICATIONS
Développer l’industrialisation de modèles statistiques ou de machine learning
Implémentation du suivi de la validité du modèle statistique
Assurer le suivi de production et la maintenance
SUIVI DES PROJETS DE DÉVELOPPEMENT
Établir les spécifications techniques à partir de l’analyse des besoins
Reporter l’activité auprès du chef de projet
ACTIVITÉS ÉVENTUELLES
Automatiser la création de tableaux de bord aux équipes métiers (envoi de fichiers via des applications dédiées)
Assurer une veille technologique sur les outils big data
Écrire la documentation relative aux bases de données (règles de gestion, dictionnaire des variables, etc.)
CIGREF
Data Engineer
Le Data Engineer développe, construit et maintien des infrastructures de données d’un point de vue système et sécurité. Il s’assure de la collecte, du stockage et de l’exploitation des flux de données répondant aux enjeux de l’entreprise. Il est garant de l’accès qualitatif des sources de données qui viennent alimenter le Data Lake afin d’en faciliter l’exploitation par les équipes de Data Science. Il définit également la structure des métadonnées.
ACTIVITES
Infrastructures de données :
Cartographie et documente les sources de données.
Assure la maintenance des différentes applications données (Data) déployées en production et des infrastructures.
Conçoit les solutions permettant le traitement de volumes importants de flux de données et ceci en toute sécurité.
Structure les bases de données (sémantique, format, etc.).
Contribue à la gestion des référentiels de données.
Intégration des données :
Capte et stocke, en toute sécurité, les données (structurées ou non) produites dans les différentes applications ou venant de l’extérieur de l’entreprise.
Assure la supervision et l’intégration des données de diverses nature qui proviennent de sources multiples. Vérifie la qualité des données qui entrent dans le Data Lake et s’assure de leur sécurité.
Nettoie la donnée (élimination des doublons…) et la valide pour une utilisation aval.
Animation des communautés :
Anime la communauté technique qui met en œuvre les dispositifs prévus ou nécessaires à l’application de la politique de la donnée de l’entreprise.
Veille technologique :
Reste en alerte sur les technologies liées au traitement de la manipulation de la donnée et identifie les solutions utilisables.
Propose des évolutions pour les infrastructures et solutions de données en place.
COMPETENCES
Scala, Python, Kafka, Spark, Hadoop ; avec en option, une bonne maîtrise de l’analyse de données, de l’intelligence artificielle ou des méthodes fondamentales en data science.
ACTIVITES
COLLECTE, STOCKAGE ET IDENTIFICATION DES DONNÉES
Cartographier les données de l’entreprise et mettre en œuvre la construction d’une plateforme de données (data lake, etc.) si celle-ci n’existe pas déjà
Recueillir les attentes utilisateurs et définir les différentes briques qui vont répondre à leurs besoins
Préconiser notamment des solutions techniques à mettre en place dans la collecte des données (en termes de transfert, format, fréquence d’actualisation, sécurité, etc.)
Préconiser aussi des solutions techniques à mettre en place dans le stockage des données (en termes de technologie ou de service utilisé – cloud ou serveur local –, dimension des serveurs, mise à disposition des données, gestion des accès, optimisation des requêtes, etc.)
Préconiser des solutions techniques permettant de s’engager sur une qualité et une continuité de service selon les contraintes (par exemple : temps de réponse de l’application, etc.)
Analyser l’impact des solutions retenues selonle besoin métier
FACILITATION DE L’USAGE DES DONNÉES DANS L’ENTREPRISE
Mettre en place des outils génériques utilisables sur l’ensemble des projets
Homogénéiser l’ensemble des développements
Documenter cette donnée de façon fonctionnelle (schéma d’architecture, etc.)
CONFORMITÉ, VEILLE ET SENSIBILISATION DES UTILISATEURS AUX PROBLÉMATIQUES DE LA DATA
Être garant de la conformité des solutions développées au regard du RGPD
Assurer une veille technologique sur les outils big data
Assurer un contact avec les éditeurs de solution pour suivre les nouvelles fonctionnalités ou la gestion des anomalies
Diffuser la culture « data » dans l’entreprise
DA
ACHEMINEMENT DE LA DONNÉE
Recueillir les besoins métiers des différentes unités demandeuses et utilisatrices de solutions de collecte et stockage de la donnée
Développer les solutions techniques de collecte de la donnée via des API
Développer des solutions techniques de stockage de la donnée (Hadoop)
Réaliser les tests unitaires et d’intégration
Mettre en place et maintenir les batchs, c’est-à-dire les automatisations d’une série de traitement
MISE À DISPOSITION DES DONNÉES AUX ÉQUIPES UTILISATRICES
Industrialiser et automatiser le nettoyage de la donnée selon les spécifications retenues
Gérer, maintenir et documenter de multiples bases de données (via l’importation de données externes en open data ou de données internes par exemple)
Gérer le cycle de vie de la donnée conformément aux directives inscrites dans le RGPD.
Assurer le suivi de production et la maintenance
SUIVI DES PROJETS DE DÉVELOPPEMENT
Établir les spécifications techniques à partir de l’analyse des besoins
Reporter l’activité auprès du chef de projet
ACTIVITÉS ÉVENTUELLES
Automatiser la création de tableaux de bord aux équipes métiers (envoi de fichiers via des applications dédiées)
Assurer une veille technologique sur les outils big data
Écrire la documentation relative aux bases de données (règles de gestion, dictionnaire des variables, etc.)
Infrastructures de données :
Cartographie et documente les sources de données.
Assure la maintenance des différentes applications données (Data) déployées en production et des infrastructures.
Conçoit les solutions permettant le traitement de volumes importants de flux de données et ceci en toute sécurité.
Structure les bases de données (sémantique, format, etc.).
Contribue à la gestion des référentiels de données.
Intégration des données :
Capte et stocke, en toute sécurité, les données (structurées ou non) produites dans les différentes applications ou venant de l’extérieur de l’entreprise.
Assure la supervision et l’intégration des données de diverses nature qui proviennent de sources multiples. Vérifie la qualité des données qui entrent dans le Data Lake et s’assure de leur sécurité.
Nettoie la donnée (élimination des doublons…) et la valide pour une utilisation aval.
Animation des communautés :
Anime la communauté technique qui met en œuvre les dispositifs prévus ou nécessaires à l’application de la politique de la donnée de l’entreprise.
DE
Reste en alerte sur les technologies liées au traitement de la manipulation de la donnée et identifie les solutions utilisables.
Propose des évolutions pour les infrastructures et solutions de données en place.
Main Idea
Mission
Dans un poste combinant les missions d'architecte data, de data engineer et de data architect, le professionnel serait responsable de concevoir et mettre en œuvre des solutions techniques pour la collecte, le stockage et l'utilisation de données massives (big data) au sein de l'entreprise. Il/elle travaillerait sur divers projets, développant des solutions génériques pour faciliter le travail des équipes de développeurs et assurant une vision globale des données de l'entreprise. En tant que data engineer, il/elle serait chargé(e) de mettre en place la collecte, l'industrialisation et la mise en production des données, collaborant étroitement avec les équipes métiers. De plus, en tant que data architect, il/elle développerait, construirait et maintiendrait des infrastructures de données, garantissant la qualité des sources alimentant le Data Lake et définissant la structure des métadonnées. La veille technologique autour du big data et des technologies émergentes serait également une responsabilité clé pour s'adapter à l'évolution rapide de l'écosystème.
Activités
Animation des communautés :
Anime la communauté technique qui met en œuvre les dispositifs prévus ou nécessaires à l’application de la politique de la donnée de l’entreprise.
Diffuser la culture « data » dans l’entreprise
Architecture de données :
Homogénéiser l’ensemble des développements
Mettre en place des outils génériques utilisables sur l’ensemble des projets
Préconiser aussi des solutions techniques à mettre en place dans le stockage des données (en termes de technologie ou de service utilisé – cloud ou serveur local –, dimension des serveurs, mise à disposition des données, gestion des accès, optimisation des requêtes, etc.)
Préconiser des solutions techniques permettant de s’engager sur une qualité et une continuité de service selon les contraintes (par exemple : temps de réponse de l’application, etc.)
Préconiser notamment des solutions techniques à mettre en place dans la collecte des données (en termes de transfert, format, fréquence d’actualisation, sécurité, etc.)
Structure les bases de données (sémantique, format, etc.).
Infrastructures de données :
Assure la maintenance des différentes applications données (Data) déployées en production et des infrastructures.
Assurer un contact avec les éditeurs de solution pour suivre les nouvelles fonctionnalités ou la gestion des anomalies
Automatiser la création de tableaux de bord aux équipes métiers (envoi de fichiers via des applications dédiées)
Conçoit les solutions permettant le traitement de volumes importants de flux de données et ceci en toute sécurité.
Développer des solutions techniques de stockage de la donnée (Hadoop)
Développer les solutions techniques de collecte de la donnée via des API
Propose des évolutions pour les infrastructures et solutions de données en place.
Ingénierie de données :
Assure la maintenance des différentes applications données (Data) déployées en production et des infrastructures.
Assure la supervision et l’intégration des données de diverses nature qui proviennent de sources multiples. Vérifie la qualité des données qui entrent dans le Data Lake et s’assure de leur sécurité.
Assurer le suivi de production et la maintenance
Capte et stocke, en toute sécurité, les données (structurées ou non) produites dans les différentes applications ou venant de l’extérieur de l’entreprise.
Documenter cette donnée de façon fonctionnelle (schéma d’architecture, etc.)
Établir les spécifications techniques à partir de l’analyse des besoins
Industrialiser et automatiser le nettoyage de la donnée selon les spécifications retenues
Mettre en place et maintenir les batchs, c’est-à-dire les automatisations d’une série de traitement
Nettoie la donnée (élimination des doublons…) et la valide pour une utilisation aval.
Réaliser les tests unitaires et d’intégration
Recueillir les attentes utilisateurs et définir les différentes briques qui vont répondre à leurs besoins
Recueillir les besoins métiers des différentes unités demandeuses et utilisatrices de solutions de collecte et stockage de la donnée
Reporter l’activité auprès du chef de projet
Management de données :
Cartographie et documente les sources de données.
Cartographier les données de l’entreprise et mettre en œuvre la construction d’une plateforme de données (data lake, etc.) si celle-ci n’existe pas déjà
Contribue à la gestion des référentiels de données.
Écrire la documentation relative aux bases de données (règles de gestion, dictionnaire des variables, etc.)
Gérer, maintenir et documenter de multiples bases de données (via l’importation de données externes en open data ou de données internes par exemple)
Être garant de la conformité des solutions développées au regard du RGPD
Gérer le cycle de vie de la donnée conformément aux directives inscrites dans le RGPD.
Veille technologique :
Assurer une veille technologique sur les outils big data
Reste en alerte sur les technologies liées au traitement de la manipulation de la donnée et identifie les solutions utilisables.
Main Topic