Almacenamiento por niveles en Kafka: resumen del blog de tecnología de Uber

Página delantera > Programación > Almacenamiento por niveles en Kafka: resumen del blog de tecnología de Uber

Almacenamiento por niveles en Kafka: resumen del blog de tecnología de Uber

Publicado el 2024-08-17

Navegar:721

Tiered Storage in Kafka - Summary from Uber

El blog de tecnología de Uber publicó un artículo, Introducción al almacenamiento por niveles de Kafka en Uber, con el objetivo de maximizar la retención de datos con menos agentes de Kafka y menos memoria. Esto permite tiempos de retención de mensajes más largos en varias aplicaciones comerciales.

Una solución común es integrar el almacenamiento externo manualmente, sincronizando periódicamente los datos con el sistema externo. Sin embargo, esto implica importantes esfuerzos de desarrollo y mantenimiento, como determinar cómo guardar los datos, configurar la frecuencia de sincronización, activar procesos, recuperar datos y utilizar la indexación.

Por lo tanto, Uber propuso una solución que encapsula la lógica del almacenamiento externo, haciéndolo plug-and-play con configuraciones simples. Esta función se está desarrollando en colaboración con la Fundación Apache y estará disponible en versiones futuras.

Guión

Es importante comprender que Kafka es un componente de cola de mensajes (MQ) de solo agregar con capacidades de rendimiento muy alto. Kafka almacena registros en el almacenamiento local del corredor y los usuarios pueden configurar el tiempo de retención o el tamaño del registro. En mi empresa anterior (Lenovo), usábamos Flink para consumir datos continuamente. Un gran volumen de datos haría que Kafka excediera el límite de almacenamiento en disco, lo que provocaría fallas en la escritura de datos y errores comerciales. Para reducir costos, en lugar de implementar más máquinas, solo pudimos ajustar el tiempo de retención.

Además, si cada empresa desarrollara su propio sistema para guardar datos antiguos en un almacenamiento externo, implicaría una gran cantidad de trabajo de desarrollo. También habría numerosos problemas relacionados con la sincronización y la coherencia de los datos.

Solución

La esencia es transformar el Broker añadiéndole gestión remota de registros y almacenamiento.

RemoteLogManager: gestiona el ciclo de vida de los segmentos de registros remotos, incluida la copia, la limpieza y la recuperación.

RemoteStorageManager: administra acciones para segmentos de registros remotos, incluida la copia, la recuperación y la eliminación. Los metadatos asociados con los segmentos de registros remotos incluyen información sobre las compensaciones de inicio y fin del segmento, marcas de tiempo, instantáneas del estado del productor y puntos de control de la época del líder.
RemoteLogMetadataManager realiza un seguimiento de estos metadatos para garantizar que el sistema sepa dónde comienza y termina cada segmento, y otra información crítica necesaria para la recuperación y administración de datos.

RemoteLogMetadataManager: gestiona el ciclo de vida de los metadatos para segmentos de registros remotos con gran coherencia.

Entre ellos, RemoteLogManager actúa como un componente de control, conectándose directamente al disco en el Broker para recuperar los datos leídos. También es responsable de devolver la llamada a los datos remotos. RemoteStorageManager es la entidad que opera con los datos y RemoteLogMetadataManager es responsable de administrar los metadatos.

Resumen de las tres acciones en el almacenamiento por niveles de Kafka

Copiar segmentos al almacenamiento remoto
Un segmento de registro se considera elegible para copiarse en almacenamiento remoto si su desplazamiento final (el desplazamiento del último mensaje en el segmento) es menor que el último desplazamiento estable de la partición.（Último desplazamiento estable (LSO): el desplazamiento más alto para lo cual todas las réplicas sincronizadas reconocen completamente todos los mensajes anteriores, lo que garantiza que no se pierdan datos.）RemoteStorageManager maneja la copia de segmentos de registro junto con sus índices asociados, marcas de tiempo, instantáneas de productor y caché de época líder.
Limpieza de segmentos remotos
Los datos remotos se limpian a intervalos regulares calculando los segmentos elegibles mediante un grupo de subprocesos dedicado. Esto es diferente de la limpieza asincrónica de los segmentos de registro locales. Cuando se elimina un tema, la limpieza de los segmentos de registro remoto se realiza de forma asincrónica y no bloqueará la operación de eliminación existente ni recreará un tema nuevo.
Obteniendo segmentos del almacenamiento remoto
RemoteLogManager determina el segmento remoto de destino en función del desplazamiento deseado y la época del líder examinando el almacén de metadatos mediante RemoteLogMetadataManager. Utiliza RemoteStorageManager para encontrar la posición dentro del segmento y comenzar a buscar los datos deseados.

Declaración de liberación Este artículo se reproduce en: https://dev.to/bochaoli95/tiered-storage-in-kafka-summary-from-ubers-technology-blog-40cg?1 Si hay alguna infracción, comuníquese con [email protected] para borrarlo

Último tutorial Más>

Aquí hay algunas opciones de títulos, centrándose en el formato de la pregunta y el contenido principal: **Opción 1 (Directa y Concisa):** * **¿Cómo recorrer eficientemente matrices multidimensionales en PHP?** **Opción 2
Hacer bucles en una matriz multidimensional en PHPLas matrices multidimensionales pueden ser un desafío para analizar, especialmente cuando se trata d...

Programación Publicado el 2024-11-06
Mejora de la calidad del código con Linting
Whenever I start a new project, one of the first things I do is put in place a code linter. For the uninitiated, linters analyze your project and call...

Programación Publicado el 2024-11-06
¿Cómo ejecutar eficazmente funciones de devolución de llamada en JavaScript?
Comprensión de la esencia de las funciones de devolución de llamada en JavaScriptEn JavaScript, las funciones de devolución de llamada ofrecen un meca...

Programación Publicado el 2024-11-06
Introducción al marco Vue
What is Vue? from the Vue website Vue is a "progressive" JavaScript framework for building user interfaces. It works by build...

Programación Publicado el 2024-11-06
Escapa del drama: por qué HydePHP es tu alternativa a WordPress
El drama de WordPress A medida que el ecosistema de WordPress enfrenta una agitación sin precedentes, muchos desarrolladores y propietarios d...

Programación Publicado el 2024-11-06
Patrones de concurrencia en Go; grupos de trabajadores y distribución/entrada en abanico
Go es conocido por su excepcional modelo de concurrencia, pero muchos desarrolladores se centran únicamente en gorutinas y canales. Sin embargo, los p...

Programación Publicado el 2024-11-06
¿Cómo convertir un solo carácter en una std::string en C++?
Creación de una cadena a partir de un solo carácterEs posible que uno encuentre la necesidad de convertir un solo carácter, representado como un tipo ...

Programación Publicado el 2024-11-06
¿Cuál es el significado del signo de dólar en los nombres de variables de JavaScript?
La importancia del signo de dólar en los nombres de variables de JavaScriptEn el ámbito de la programación, el uso de convenciones de nomenclatura es ...

Programación Publicado el 2024-11-06
¿Cómo puedo reorganizar las columnas en un diseño de cuadrícula CSS para lograr capacidad de respuesta móvil?
Reordenar columnas en un diseño de cuadrícula CSSEn el diseño de cuadrícula CSS, existen varias técnicas para modificar el orden de las columnas para ...

Programación Publicado el 2024-11-06
Sistema de subastas en línea de la semana del Hacktoberfest
Descripción general Durante la semana 3 del Hacktoberfest, decidí contribuir a un proyecto más pequeño pero prometedor: un sistema de subasta...

Programación Publicado el 2024-11-06
¿Cómo se propagan excepciones entre subprocesos en C++ usando `exception_ptr`?
Propagar excepciones entre subprocesos en C La tarea de propagar excepciones entre subprocesos en C surge cuando una función llamada desde un subproce...

Programación Publicado el 2024-11-06
¿Cómo arreglar bordes irregulares en Firefox con transformaciones CSS 3D?
Bordes dentados en Firefox con transformaciones CSS 3DAl igual que el problema de los bordes dentados en Chrome con transformaciones CSS, Firefox tamb...

Programación Publicado el 2024-11-06
¿Por qué la función mail() de PHP plantea desafíos para la entrega de correo electrónico?
Por qué la función mail() de PHP se queda corta: limitaciones y trampasSi bien PHP proporciona la función mail() para enviar correos electrónicos, no ...

Programación Publicado el 2024-11-06
Optimice sus conversiones de archivos NumPy con npyConverter
Si trabaja con archivos .npy de NumPy y necesita convertirlos a formatos .mat (MATLAB) o .csv, npyConverter es la herramienta para usted. Esta sencill...

Programación Publicado el 2024-11-06
¿Cómo deshabilitar las reglas de Eslint para una línea específica?
Regla de Eslint deshabilitada para una línea específicaEn JSHint, las reglas de linting se pueden deshabilitar para una línea en particular usando la ...

Programación Publicado el 2024-11-06

Clasificación Más>

Aprende japonés Aprender coreano Aprender chino Aprender idioma extranjero Juego Problema comun Periféricos tecnológicos AI Tutoriales de software Programación Artículo