Galerie de cartes mentales Carte mentale de base d'une application Big Data
Une carte mentale de base sur les applications du Big Data, notamment le cloud computing et le Big Data, le traitement des données en temps réel par des systèmes distribués et l'acquisition de données massives par la technologie de l'Internet des objets.
Modifié à 2023-12-04 21:40:18Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Bases des applications Big Data
L'ère des données commence avec moi
À partir de l’ordre des troupes de Han Xin
Quelle est la taille du Big Data ?
Les unités de données de la construction urbaine comprennent
peu
Octet
Ko (kilo-octets)
Mo (mégaoctet)
Go (gigaoctet)
Au-dessus de GB, il y a TB, PB, EB, ZB, YB, DB et NB.
Le taux d'avancement de ces unités est de 1024 (2 à la puissance dixième)
1 octet = 8 bits
1 Ko = 1 024 octets
1 Mo = 1 024 Ko
1 Go = 1 024 Mo
1 To = 1 024 Go
1 To = 1 024 Go
1 Po = 1 024 To
Intuitivement, à combien d’octets INB est-il égal ?
1EB=1024PB
1ZB = 1024EB
1 YB = 1 024 ZB
1DB=1024YB
1NB=1024DB
Définition du Big Data
Définition Wikipédia
Les mégadonnées, également connues sous le nom de données massives, font référence à la quantité de données impliquées qui est si volumineuse qu'elles ne peuvent pas être interceptées, gérées, traitées et organisées sous une forme que les humains peuvent interpréter par des humains ou des ordinateurs dans un délai raisonnable.
Définition d’institution de recherche
Le Big Data est un ensemble de données qui ne peuvent pas être capturées, gérées et traitées dans un certain laps de temps à l'aide d'outils logiciels conventionnels. Il s'agit d'un ensemble de données massif, à forte croissance et à volume élevé qui nécessite de nouveaux modèles de traitement pour permettre une prise de décision plus solide. puissance, découverte d’informations et capacités d’optimisation des processus.
Définition du McKinsey Global Institute
Le Big Data est une collection de données si volumineuse que son acquisition, son stockage, sa gestion et son analyse dépassent largement les capacités des outils logiciels de bases de données traditionnels. Il présente une échelle de données massive, un flux de données rapide, une diversité de types de données et une faible densité de valeur. De grandes fonctionnalités.
Le processus de génération de Big Data
Hadoop est né en 2005
Fin 2008, le Big Data a été reconnu par des chercheurs en informatique de renom aux États-Unis.
En 2009, le gouvernement indien a créé une base de données biométrique pour la gestion de l'identité, et le projet Earth Pulse des Nations Unies a étudié comment utiliser les données des téléphones portables et des sites de réseaux sociaux pour analyser et prédire les épidémies de maladies tréponémiques.
En février 2010, Kenneth Cukier a publié un rapport spécial de 14 pages sur le Big Data dans The Economist, « Data, Ubiquitous Data »
En mars 2012, l'administration Obama a publié l'« Initiative de recherche et de développement sur les mégadonnées » sur le site Web de la Maison Blanche. Cette initiative a montré que les mégadonnées sont devenues une caractéristique importante de notre époque.
En avril 2014, le Forum économique mondial a publié un rapport mondial sur les technologies de l'information sur le thème « Retours et risques du Big Data ».
La quantité totale de données mondiales en 2017 était de 21,6 Go. Le taux de croissance annuel actuel des données mondiales est d'environ 40 %. En 2018, l'industrie mondiale du Big Data s'est fortement développée.
Caractéristiques de base du Big Data 4V
Grande taille
grande vitesse
diversification
Densité de valeur faible.
D’où viennent les mégadonnées ?
Classification des principales sources de big data
①Activités humaines et divers types de données générées par les personnes utilisant Internet (y compris l'Internet mobile) :
(2) Les données générées par les ordinateurs et divers systèmes d'information informatiques se présentent principalement sous forme de fichiers, de bases de données, de multimédia, etc.
(3) Travaillez avec Li Shi. Données collectées par divers appareils numériques, telles que des données météorologiques massives collectées par les équipements de collecte du système météorologique
Data, données vidéo massives générées par les systèmes de vidéosurveillance, etc.
Un symbole de la génération du big data dans la société moderne.
(1) La recherche scientifique produit du big data.
(2) La technologie de l’Internet des objets génère du Big Data.
(3) La mise en réseau génère du Big Data.
Ce que le Big Data peut faire
Le nœud de la nouvelle génération d’applications d’intégration des technologies de l’information réside dans le traitement et l’analyse du Big Data.
L'Internet des objets, l'Internet mobile, les réseaux sociaux et le commerce électronique sont les applications de la nouvelle génération des technologies de l'information. Ces applications se forment et génèrent progressivement du big data au cours de leur fonctionnement.
Le Big Data est devenu un nouveau moyen pour l’industrie de l’information de se développer continuellement.
Avec le développement continu du Big Data et des technologies associées, de nouveaux produits, de nouvelles technologies, de nouveaux formats commerciaux et de nouveaux services pour le marché du Big Data émergent progressivement et se développent rapidement.
Le Big Data est devenu un facteur clé pour améliorer la compétitivité de base.
Avec le développement des technologies de l'information, de plus en plus d'industries se sont engagées sur la voie de la transformation et du développement, et la prise de décision des entreprises est progressivement passée d'une approche commerciale à une approche axée sur les données. L'analyse des mégadonnées peut aider les entreprises à lancer un marketing plus efficace et plus standard. des plans. Capable de développer des mesures de service personnalisées pour les entreprises qui correspondent davantage aux besoins des consommateurs.
À l’ère du Big Data, les méthodes de recherche scientifique connaîtront également des changements correspondants.
L’impact du Big Data et des technologies associées sur la recherche scientifique est de plus en plus évident
Le big data de Facebook fidélise les utilisateurs
Selon le Global Digital Report 2018, il y avait 3,196 milliards d’utilisateurs de médias sociaux dans le monde en 2018. Une hausse sur un an de 13%.
Première introduction à la plateforme Big Data
Collecte de mégadonnées
Collecte de mégadonnées
analyse de données massives
traitement des mégadonnées
Visualisation de mégadonnées
Data Guizhou, Guizhou coloré
Omission de l'établissement du Big Data du Guizhou
D'une feuille de papier vierge à un projet, la province du Guizhou, haut lieu du développement et sur la voie du big data, s'est tranquillement transformée d'un adepte de l'ère industrielle passée à un compagnon de route de l'ère du big data. Même le favori.
En 2015, la province du Guizhou a proposé la mise en œuvre d'actions stratégiques liées au Big Data au niveau provincial.
Lors de l'Exposition internationale de l'industrie du Big Data en Chine 2018, la province du Guizhou a signé avec succès 199 projets contractuels pour un montant total de 35,28 milliards de yuans.
État actuel du développement du Big Data au Guizhou
La province du Guizhou met pleinement en œuvre l’esprit du 19e Congrès national du Parti communiste chinois et les instructions importantes du secrétaire général Xi Jinping à la province du Guizhou en Chine. Dans l'esprit des instructions, les actions stratégiques relatives au Big Data seront mises en œuvre en profondeur, la construction de la zone expérimentale nationale complète du Big Data sera vigoureusement encouragée et la construction du Guizhou numérique sera accélérée.
L'intégration et le partage des données sont à l'avant-garde du pays.
L'ouverture des données est à l'avant-garde du pays.
Résultats du développement du Big Data au Guizhou
Créer des entreprises publiques provinciales à grande échelle dans le domaine du développement du Big Data.
Création réussie du "Truck Gang" plus "Yunmanman".
Centre de données Apple installé dans le Guizhou.
Formez un écosystème industriel Big Data.
Créer un « collecteur mondial de renseignements ».
Cultivez les meilleurs talents du Big Data.
Promotion de l’application des mégadonnées pour une réduction ciblée de la pauvreté.
Utiliser les mégadonnées pour contribuer à la réduction de la pauvreté grâce à l’éducation.
Promotion de l’application du Big Data médical.
Utiliser le Big Data pour promouvoir la transformation et la modernisation économiques.
Réaliser la construction de standards big data.
Le développement intégré du « big data plus transport ».
Cloud computing et big data
Qu'est-ce que le cloud computing
Ordinateurs traditionnels.
Le soi-disant ordinateur est en fait la fenêtre de travail
Virtualisation
Pour le programme de surveillance, cette fenêtre ne concerne pas directement le matériel et toutes les ressources doivent être planifiées par le programme de surveillance. Allocation, cette machine Windows est donc une machine virtuelle, appelée vm. Ce processus de séparation de la machine matérielle du système d'exploitation via le programme de surveillance est la virtualisation.
Chargement et équilibrage.
formation de nuages
pool de ressources
virtuel secondaire
Autogestion des utilisateurs.
Connectez-vous au réseau.
Type de nuage.
Nuage privé
nuage public
nuage hybride
Infrastructures et services
Plateforme et services
Logiciels et services
autres
Définition du cloud computing.
Le cloud computing est un modèle de paiement à l'utilisation qui fournit un accès réseau pratique à la demande à un pool de ressources informatiques configurables. Ces ressources peuvent être mises à disposition rapidement avec un minimum d'effort administratif ou d'interaction avec le fournisseur de services.
Principaux fournisseurs de services de cloud computing.
Nuage Baidu
Ali Nuage
Service cloud Amazon AWS.
Informatique en nuage Microsoft Azure.
Architecture technologique du cloud computing
L'architecture du cloud computing est divisée en 4 couches, la couche de ressources physiques, la couche de pool de ressources, la couche intermédiaire de gestion et une
La relation entre le cloud computing et le big data
En termes simples, le cloud computing est la virtualisation des ressources matérielles, tandis que le big data est le traitement efficace de données massives.
L'architecture récapitulative du Big Data comprend trois couches de stockage, de traitement et d'analyse des données.
On peut dire que le Big Data équivaut à la suppression de données massives dans des bases de données. Le développement du domaine du Big Data montre que le développement actuel du Big Data s'est développé dans une direction similaire à l'expérience des bases de données traditionnelles.
Plateforme agricole moderne basée sur le cloud computing et le big data
Architecture du système de plate-forme de surveillance agricole intelligente.
Couche perceptuelle
couche de transport
couche de données
Couche d'application
couche terminale
Système agroalimentaire sans maquillage.
Chapitre 9 Les systèmes distribués traitent les données en temps réel
Qu'est-ce qu'un système distribué
La distribution est la principale caractéristique du système.
Distribution
Les positions spatiales de plusieurs ordinateurs dans un système distribué peuvent être distribuées de manière aléatoire et il n'y a pas de distinction maître-esclave entre plusieurs ordinateurs du système.
Transparence
Les ressources système sont partagées par tous les ordinateurs.
unité
Plusieurs ordinateurs du système peuvent coopérer entre eux pour accomplir une tâche commune, ou un programme peut être distribué sur d'autres ordinateurs. Exécutez en parallèle.
homogénéité
Deux ordinateurs du système peuvent échanger des informations via la communication.
Systèmes distribués courants.
GFS
HDFS
Céph
Lustre
Solutions distribuées couramment utilisées.
Applications et services distribués
Les applications et services distribués superposent et divisent les applications et les services, puis déploient les modules d'application et de service de manière distribuée.
Ressources statiques distribuées
Le déploiement distribué de ressources statiques de sites Web telles que js, images CSS, etc. peut réduire la pression de charge sur le serveur d'applications et améliorer la vitesse d'accès.
Données et stockage distribués
Les grands sites Web doivent souvent traiter d’énormes quantités de données, et un seul ordinateur ne peut souvent pas fournir suffisamment d’espace mémoire pour le stockage distribué de ces données.
Informatique distribuée
Avec le développement de la technologie informatique, certaines applications nécessitent une puissance de calcul très importante. Si l'informatique centralisée est utilisée, cela prendra beaucoup de temps. Ainsi distribué divise l'application en plusieurs petites parties et les affecte à plusieurs ordinateurs pour le traitement. Cela peut permettre d'économiser du temps de calcul global et d'améliorer considérablement l'efficacité informatique.
La relation entre distribution et clustering
distribué
La distribution fait référence au déploiement de différents modules de service sur plusieurs serveurs différents, à la collaboration via des appels de destination et à la fourniture de services au monde extérieur.
grappe
Le clustering fait référence au déploiement de la même application ou du même module de service sur plusieurs serveurs différents, et un cluster est utilisé ensemble. Les équipements équilibrés fournissent des services au monde extérieur.
En général, les systèmes distribués fonctionnent en parallèle et les clusters fonctionnent en série.
Chaque nœud d'un système distribué peut être clusterisé, mais un cluster n'est pas nécessairement distribué.
Introduction à la plateforme Hadoop
L'origine du nom Hadoop
Dong Cunting, le créateur du projet, explique d'où Hadoop tire son nom : "Ce nom a été donné par mes enfants à un éléphant brun bien nourri."
Événements Hadoop
La version initiale (maintenant appelée IDFS I MapRediuce) a été implémentée en 2004 par Dorug Cutting de Mike Catiarcla.
1er décembre 2005 - Nutch a été transplanté dans le nouveau framework et Hadoop fonctionnait de manière stable sur 20 nœuds.
En février 2006, le projet Apache Hadoop a été officiellement lancé pour prendre en charge le développement indépendant de MapRcduce et HDFS.
En février 2006, l'équipe de calcul en grille de Yahoo a adopté Hadoop.
Le tri standard d'avril 2006 (10 Go par nœud) s'est déroulé en 47,9 heures sur 188 nœuds.
En juillet 2007, le pôle de recherche atteignait 900 nœuds.
En avril 2008, le pôle de recherche chargeait 10 To de données chaque jour.
Avril 2009 - Gagnez des tris par minute, triez 500 Go en 59 secondes (sur 1400 nœuds) et 173 points
Introduction au cadre HDFS
Le système de gestion de fichiers distribué de la plateforme Hdfshadop est le plus important d'ap. L'un des composants
Nœud de nœud de nom.
Mars 2009 - 17 clusters avec un total de 24 000 machines.
Interaction entre le nœud D AA et le nœud name.
Natanode est l'exécution de tâches spécifiques.
Interactions entre Danodenamenoe
Namenode reconstruira dynamiquement les informations sur les données des composants du système de fichiers à chaque démarrage du système, à ce moment-là, il utilisera le battement de cœur pour interroger le nœud de données du nœud d'ode de données centralisé afin de répondre à l'ae avec un battement de cœur. Noe envoie périodiquement les informations de bloc de fichiers qu'il stocke au naenode.
Cadre informatique Hadoop
Maprduce est le composant informatique de base d'adop et est utilisé pour le calcul parallèle de données massives. Les étapes principales du framework Mapreduce sont principalement divisées en deux parties, Mapper et réduire.
Ce qu'Hadoop apporte à l'entreprise
Le Big Data convient non seulement aux grandes entreprises, mais également aux entreprises de toutes tailles.
Fournit une base pour l’entreprise ésotérique et une connaissance privilégiée essentielle des données externes pour le Big Data Hadop.
Hadop s'est rapidement développé pour devenir la solution d'analyse Big Data préférée pour les données non structurées.
Google et Hadop sont inextricablement liés.
IBM a annoncé la création d'une nouvelle architecture de stockage sous forme de cluster sur AP. Exécute des bases de données DB2 ou ACL pour permettre aux applications de prendre en charge l'analyse haute performance, les applications d'entrepôt de données et l'informatique opérationnelle.
Le géant de la recherche sur Internet Baidu envisage également d'utiliser AP
En tant qu'infrastructure distribuée, Ap permet aux utilisateurs de développer des programmes distribués sans comprendre les détails sous-jacents de la distribution.
Application Hadoop pour la recherche d'entreprises Baidu
Ajustez la stratégie de réduction.
Améliorez l’efficacité et la fonctionnalité de HD FS.
Modifier la stratégie d'exécution du discours atif.
Contrôlez l’utilisation des ressources.
Lianjia utilise le Big Data pour analyser les besoins des clients
Dessin de conception de plate-forme
Moji Weather traite 2 To de données de journal chaque jour
Analyse de la plateforme
Tirez pleinement parti des données de journal massives accumulées sur le terminal mobile.
Effectuer une analyse Big Data sur l’utilisation des utilisateurs et les activités publicitaires.
Utilisez la technologie Big Data d'Alibaba Cloud pour aider l'équipe des opérations et l'équipe publicitaire à optimiser les activités existantes sur la base de l'analyse des données de journal.
Météo des affaires sur le Big Data
Nous continuerons à développer la surveillance météorologique basée sur une technologie mature du Big Data et des ressources de talents Big Data.
Moji continuera d'élargir la gamme de services de surveillance météorologique.
Au début, cela a un impact énorme sur le marché.
L'interactivité multiple a été grandement améliorée grâce à l'Internet mobile.
Les services météorologiques commerciaux constitueront une énorme opportunité entrepreneuriale en Chine.
La technologie IoT capture d’énormes quantités de données
IoT et big data
Qu’est-ce que l’Internet des objets ?
L'Internet des objets fait référence au déploiement de divers appareils dotés de certaines capacités de détection, capacités informatiques et capacités d'exécution dans des entités du monde physique. L'équipement de détection d'informations réalise la transmission, la collaboration et le traitement d'informations via des installations de réseau, réalisant ainsi une communication à grande échelle ou à grande échelle entre les personnes. L'interconnexion des besoins d'échange d'informations entre les choses et les choses.
Comment l’Internet des objets est-il mis en œuvre ?
collecte de données
stockage de données
Analyses statistiques
La technologie de base de l'Internet des objets.
Technologie NB-LoT
Technologie RFID
Technologie des capteurs
Technologie de communication réseau
Technologie des systèmes embarqués
Cloud computing
Plateforme Big Data IoT de la chaîne du froid
Terminal de collecte intelligent sans fil pour chaîne du froid
moteur de canal de données
Logiciel client de surveillance à distance