Armazenamento em camadas em Kafka – Resumo do blog de tecnologia da Uber - Programação

Primeira página > Programação > Armazenamento em camadas em Kafka – Resumo do blog de tecnologia da Uber

Armazenamento em camadas em Kafka – Resumo do blog de tecnologia da Uber

Publicado em 17/08/2024

Navegar:421

Tiered Storage in Kafka - Summary from Uber

O blog de tecnologia da Uber publicou um artigo, Introdução ao armazenamento em camadas Kafka na Uber, com o objetivo de maximizar a retenção de dados com menos corretores Kafka e menos memória. Isso permite tempos de retenção de mensagens mais longos em vários aplicativos de negócios.

Uma solução comum é integrar o armazenamento externo manualmente, sincronizando periodicamente os dados com o sistema externo. No entanto, isso envolve esforços significativos de desenvolvimento e manutenção, como determinar como salvar os dados, definir a frequência de sincronização, acionar processos, buscar dados e usar indexação.

Portanto, a Uber propôs uma solução que encapsula a lógica do armazenamento externo, tornando-o plug-and-play com configurações simples. Este recurso está sendo desenvolvido em colaboração com a Apache Foundation e estará disponível em versões futuras.

Cenário

É importante entender que Kafka é um componente de fila de mensagens (MQ) somente anexado com recursos de rendimento muito altos. Kafka armazena logs no armazenamento local do corretor e os usuários podem configurar o tempo de retenção ou o tamanho do log. Na minha empresa anterior (Lenovo), usávamos o Flink para consumir dados continuamente. Um grande volume de dados faria com que o Kafka excedesse o limite de armazenamento em disco, levando a falhas de gravação de dados e erros de negócios. Para reduzir custos, em vez de implantar mais máquinas, poderíamos apenas ajustar o tempo de retenção.

Além disso, se cada empresa desenvolvesse seu próprio sistema para salvar dados mais antigos em armazenamento externo, isso envolveria uma enorme quantidade de trabalho de desenvolvimento. Também haveria vários problemas relacionados à sincronização e consistência de dados.

Solução

A essência é transformar o Broker adicionando gerenciamento remoto de log e gerenciamento de armazenamento a ele.

RemoteLogManager: gerencia o ciclo de vida de segmentos de log remotos, incluindo cópia, limpeza e busca.

RemoteStorageManager: gerencia ações para segmentos de log remoto, incluindo cópia, busca e exclusão. Os metadados associados a segmentos de log remoto incluem informações sobre deslocamentos de início e fim do segmento, carimbos de data/hora, instantâneos de estado do produtor e pontos de verificação de época líder.
RemoteLogMetadataManager monitora esses metadados para garantir que o sistema saiba onde cada segmento começa e termina e outras informações críticas necessárias para recuperação e gerenciamento de dados.

RemoteLogMetadataManager: gerencia o ciclo de vida de metadados para segmentos de log remotos com forte consistência.

Entre eles, o RemoteLogManager atua como um componente de controle, conectando-se diretamente ao disco no Broker para recuperar os dados lidos. Também é responsável por retornar os dados remotos. RemoteStorageManager é a entidade que opera nos dados e RemoteLogMetadataManager é responsável por gerenciar os metadados.

Resumo das três ações no armazenamento em camadas Kafka

Copiando segmentos para armazenamento remoto
Um segmento de log é considerado elegível para cópia para armazenamento remoto se seu deslocamento final (o deslocamento da última mensagem no segmento) for menor que o último deslocamento estável da partição.（Last-Stable-Offset (LSO): O deslocamento mais alto para o qual todas as mensagens anteriores são totalmente reconhecidas por todas as réplicas sincronizadas, garantindo nenhuma perda de dados.）RemoteStorageManager lida com a cópia de segmentos de log junto com seus índices associados, carimbos de data e hora, instantâneos do produtor e cache de época líder.
Limpeza de segmentos remotos
Os dados remotos são limpos em intervalos regulares computando os segmentos elegíveis por um pool de threads dedicado. Isso é diferente da limpeza assíncrona dos segmentos de log locais. Quando um tópico é excluído, a limpeza dos segmentos de log remotos é feita de forma assíncrona e não bloqueará a operação de exclusão existente nem recriará um novo tópico.
Buscando segmentos do armazenamento remoto
RemoteLogManager determina o segmento remoto de destino com base no deslocamento desejado e na época líder, examinando o armazenamento de metadados usando RemoteLogMetadataManager. Ele usa RemoteStorageManager para encontrar a posição dentro do segmento e começar a buscar os dados desejados.

Declaração de lançamento Este artigo foi reproduzido em: https://dev.to/bochaoli95/tiered-storage-in-kafka-summary-from-ubers-technology-blog-40cg?1 Se houver alguma violação, entre em contato com [email protected] para excluí-lo

Tutorial mais recente Mais>

CSS fortemente a análise de linguagem digitada
Uma das maneiras pelas quais você pode classificar uma linguagem de programação é o quão fortemente ou fracamente é digitado. Aqui, “digitado” signif...

Programação Postado em 2025-07-17
Como mesclar colunas de ano e quarto em uma coluna periódica em pandas?
colunas concatenas para uma nova coluna de período Declaração de problemas: considera um panda dataframe com colunas denominadas "ano...

Programação Postado em 2025-07-17
Guia de criação de páginas de 404 de 404 da FASTAPI
Página 404 personalizada não encontrada com fastapi para criar uma página 404 personalizada não encontrada, o FASTAPI oferece várias abordagen...

Programação Postado em 2025-07-17
Por que as junções da esquerda parecem intra-conexões ao filtrar na cláusula onde na tabela direita?
junção de junção de esquerda: horas de bruxa quando se transforma em uma junção interna em um reino de um assistente de banco de dados, executar...

Programação Postado em 2025-07-17
Por que há listras no meu fundo linear de gradiente e como posso consertá -las?
banindo as faixas de fundo do gradiente linear Ao empregar a propriedade linear de gradiente para um plano de fundo, você pode encontrar listr...

Programação Postado em 2025-07-17
Como o mapa de Java. ENTRY e Simpleentry simplificam o gerenciamento de pares de valores-chave?
Uma coleção abrangente para pares de valores: introduzindo o mapa de java.Entry e o Simpleentry em java, ao definir uma coleção em que cada el...

Programação Postado em 2025-07-17
Os parâmetros de modelo podem na função C ++ 20 ConstEval depender dos parâmetros da função?
funções constEval e parâmetros de modelos dependentes de argumentos da função em c 17, um parâmetro de modelo não pode depender de um argument...

Programação Postado em 2025-07-17
Como posso recuperar com eficiência valores de atributo de arquivos XML usando PHP?
recuperando valores do atributo dos arquivos xml em php todo desenvolvedor encontra a necessidade de analisar arquivos xml e extrair valores e...

Programação Postado em 2025-07-17
Existe uma diferença de desempenho entre usar um loop for-Each e um iterador para travessia de coleção em Java?
para cada loop vs. iterator: eficiência na coleção Traversal Introduction quando travessing uma coleção em java, the ARIDES quando trave...

Programação Postado em 2025-07-17
Qual é a diferença entre funções aninhadas e fechamentos em Python
funções aninhadas vs. fechamentos em python enquanto as funções aninhadas em python se assemelham superficialmente, e são fundamentalmente dis...

Programação Postado em 2025-07-17
Método JavaScript para calcular o número de dias entre duas datas
Como calcular a diferença entre as datas em javascript ao tentar determinar a diferença entre duas datas em Javascly, capturadas, esta solução...

Programação Postado em 2025-07-17
Métodos de acesso e gerenciamento de variáveis de ambiente python
Acessando variáveis de ambiente em python para acessar variáveis de ambiente em python, utilizar o os.envon objeto, que representa um ambien...

Programação Postado em 2025-07-17
Tarefa assíncroada vs. assíncrona em asp.net: Por que o método assíncrono void às vezes joga exceções?
Entendendo a distinção entre a tarefa assíncrona e async em asp.net em ASP.NET APLICAÇÕES, ASYNCHRONOUS PROGRATIONS APRESENCIA UM REMAÇÃO CRUC...

Programação Postado em 2025-07-17
Como usar corretamente as consultas com parâmetros de PDO?
usando consultas semelhantes em PDO Ao tentar implementar como consultas em PDO, você pode encontrar questões como as descritas na consulta ab...

Programação Postado em 2025-07-17
Por que as expressões lambda exigem variáveis "final" ou "final válida" em Java?
expressões lambda requerem "final" ou "efetivamente" variáveis a mensagem de erro "BEATILE Utilizada na expressão lam...

Programação Postado em 2025-07-17

Classificação Mais>

Aprenda japonês Aprender coreano Aprenda chinês Aprender língua estrangeira Jogo Problema comum Periféricos de tecnologia IA Tutorial de software Programação Artigo