Stockage hiérarchisé dans Kafka - Résumé du blog technologique d'Uber - La programmation

Page de garde > La programmation > Stockage hiérarchisé dans Kafka - Résumé du blog technologique d'Uber

Stockage hiérarchisé dans Kafka - Résumé du blog technologique d'Uber

Publié le 2024-08-17

Parcourir:492

Tiered Storage in Kafka - Summary from Uber

Le blog technologique d'Uber a publié un article, Introduction au stockage hiérarchisé Kafka chez Uber, visant à maximiser la conservation des données avec moins de courtiers Kafka et moins de mémoire. Cela permet des temps de conservation des messages plus longs dans diverses applications professionnelles.

Une solution courante consiste à intégrer manuellement le stockage externe, en synchronisant périodiquement les données avec le système externe. Cependant, cela implique des efforts de développement et de maintenance importants, tels que déterminer comment sauvegarder les données, définir la fréquence de synchronisation, déclencher des processus, récupérer des données et utiliser l'indexation.

Par conséquent, Uber a proposé une solution qui encapsule la logique du stockage externe, le rendant plug-and-play avec des configurations simples. Cette fonctionnalité est développée en collaboration avec la Fondation Apache et sera disponible dans les prochaines versions.

Scénario

Il est important de comprendre que Kafka est un composant de file d'attente de messages (MQ) en ajout uniquement avec des capacités de débit très élevées. Kafka stocke les journaux sur le stockage local du courtier et les utilisateurs peuvent configurer le temps de conservation ou la taille des journaux. Dans mon ancienne entreprise (Lenovo), nous utilisions Flink pour consommer des données en continu. Un volume important de données amènerait Kafka à dépasser la limite de stockage sur disque, entraînant des échecs d'écriture de données et des erreurs commerciales. Pour réduire les coûts, au lieu de déployer davantage de machines, nous n'avons pu qu'ajuster le temps de rétention.

De plus, si chaque entreprise devait développer son propre système pour sauvegarder les données plus anciennes sur un stockage externe, cela impliquerait une énorme quantité de travail de développement. Il y aurait également de nombreux problèmes liés à la synchronisation et à la cohérence des données.

Solution

L'essence est de transformer le Broker en y ajoutant la gestion des journaux à distance et la gestion du stockage.

RemoteLogManager : gère le cycle de vie des segments de journaux distants, y compris la copie, le nettoyage et la récupération.

RemoteStorageManager : gère les actions pour les segments de journaux distants, y compris la copie, la récupération et la suppression. Les métadonnées associées aux segments de journaux distants incluent des informations sur les décalages de début et de fin du segment, les horodatages, les instantanés de l'état du producteur et les points de contrôle de l'époque principale.
RemoteLogMetadataManager garde une trace de ces métadonnées pour garantir que le système sait où commence et se termine chaque segment, ainsi que d'autres informations critiques nécessaires à la récupération et à la gestion des données.

RemoteLogMetadataManager : gère le cycle de vie des métadonnées pour les segments de journaux distants avec une forte cohérence.

Parmi eux, RemoteLogManager agit comme un composant de contrôle, se connectant directement au disque du Broker pour récupérer les données lues. Il est également chargé de rappeler les données distantes. RemoteStorageManager est l'entité qui opère sur les données et RemoteLogMetadataManager est responsable de la gestion des métadonnées.

Résumé des trois actions dans le stockage hiérarchisé Kafka

Copie de segments vers le stockage distant
Un segment de journal est considéré comme éligible pour la copie sur le stockage distant si son décalage de fin (le décalage du dernier message du segment) est inférieur au dernier décalage stable de la partition.（Last-Stable-Offset (LSO) : le décalage le plus élevé pour lequel tous les messages précédents sont entièrement reconnus par toutes les répliques synchronisées, garantissant ainsi aucune perte de données.）RemoteStorageManager gère la copie des segments de journal ainsi que leurs index associés, horodatages, instantanés du producteur et cache d'époque leader.
Nettoyage des segments distants
Les données distantes sont nettoyées à intervalles réguliers en calculant les segments éligibles par un pool de threads dédié. Ceci est différent du nettoyage asynchrone des segments de journaux locaux. Lorsqu'un sujet est supprimé, le nettoyage des segments de journaux distants est effectué de manière asynchrone et ne bloquera pas l'opération de suppression existante ni ne recréera un nouveau sujet.
Récupération de segments à partir du stockage distant
RemoteLogManager détermine le segment distant ciblé en fonction du décalage souhaité et de l'époque leader en examinant le magasin de métadonnées à l'aide de RemoteLogMetadataManager. Il utilise RemoteStorageManager pour trouver la position dans le segment et commencer à récupérer les données souhaitées.

Déclaration de sortie Cet article est reproduit sur : https://dev.to/bochaoli95/tiered-storage-in-kafka-summary-from-ubers-technology-blog-40cg?1 En cas de violation, veuillez contacter [email protected] pour le supprimer

Dernier tutoriel Plus>

Système d'enchères en ligne pour la semaine du Hacktoberfest
Aperçu Au cours de la troisième semaine du Hacktoberfest, j'ai décidé de contribuer à un projet plus petit mais prometteur : un système d...

La programmation Publié le 2024-11-06
Comment propager les exceptions entre les threads en C++ à l'aide de `exception_ptr` ?
Propagation des exceptions entre les threads en C La tâche de propagation des exceptions entre les threads en C survient lorsqu'une fonction appel...

La programmation Publié le 2024-11-06
Comment réparer les bords irréguliers dans Firefox avec des transformations CSS 3D ?
Bords irréguliers dans Firefox avec transformations CSS 3DSemblable au problème des bords irréguliers dans Chrome avec les transformations CSS, Firefo...

La programmation Publié le 2024-11-06
Pourquoi la fonction mail() de PHP pose-t-elle des défis pour la livraison des e-mails ?
Pourquoi la fonction mail() de PHP est insuffisante : limites et piègesBien que PHP fournisse la fonction mail() pour l'envoi d'e-mails, elle ...

La programmation Publié le 2024-11-06
Rationalisez vos conversions de fichiers NumPy avec npyConverter
Si vous travaillez avec les fichiers .npy de NumPy et que vous devez les convertir aux formats .mat (MATLAB) ou .csv, npyConverter est l'outil qu&...

La programmation Publié le 2024-11-06
Comment désactiver les règles Eslint pour une ligne spécifique ?
Désactivation des règles Eslint pour une ligne spécifiqueDans JSHint, les règles de peluchage peuvent être désactivées pour une ligne particulière en ...

La programmation Publié le 2024-11-06
Comment insérer des listes dans des cellules Pandas DataFrame sans erreurs ?
Insertion de listes dans des cellules PandasProblèmeEn Python, tenter d'insérer une liste dans une cellule d'un Pandas DataFrame peut entraîne...

La programmation Publié le 2024-11-06
Quelles sont les principales différences entre « plt.plot », « ax.plot » et « figure.add_subplot » dans Matplotlib ?
Différences entre le tracé, les axes et la figure dans MatplotlibMatplotlib est une bibliothèque Python orientée objet pour créer des visualisations. ...

La programmation Publié le 2024-11-06
FireDucks : obtenez des performances supérieures à celles des pandas avec un coût d'apprentissage nul !
Pandas est l'une des bibliothèques les plus populaires, alors que je cherchais un moyen plus simple d'accélérer ses performances, j'ai déc...

La programmation Publié le 2024-11-06
Grille CSS : dispositions de grille imbriquées
Introduction CSS Grid est un système de mise en page qui a rapidement gagné en popularité parmi les développeurs Web pour sa flexibilité et s...

La programmation Publié le 2024-11-06
Carnet Jupyter pour Java
Le puissant de Jupyter Notebook Les Jupyter Notebooks sont un excellent outil, développé à l'origine pour aider les scientifiques et les ...

La programmation Publié le 2024-11-06
Comment partager des données entre la fenêtre principale et les threads dans PyQt : référence directe par rapport aux signaux et aux emplacements ?
Partage de données entre la fenêtre principale et le thread dans PyQtLes applications multithread doivent souvent partager des données entre le thread...

La programmation Publié le 2024-11-06
Raccourcis VS Code les plus utiles pour les développeurs professionnels ?
20 raccourcis les plus utiles dans VS Code Navigation générale Palette de commandes : accédez à toutes les commandes disponibles dans VS Code. Ctrl M...

La programmation Publié le 2024-11-06
Créons une meilleure saisie numérique avec React

La programmation Publié le 2024-11-06
Quand utiliser la « mise à jour du compositeur » plutôt que « l'installation du compositeur » ?
Explorer les différences entre composer update et composer installComposer, un gestionnaire de dépendances PHP populaire, propose deux commandes clés ...

La programmation Publié le 2024-11-06

Classification Plus>

Apprendre le japonais Apprendre le coréen Apprendre le chinois Apprendre une langue étrangère Jeu Problème commun Périphériques technologiques IA Tutoriel logiciel La programmation Article