Многоуровневое хранилище в Kafka – сводка из блога Uber Technology - программирование

титульная страница > программирование > Многоуровневое хранилище в Kafka – сводка из блога Uber Technology

Многоуровневое хранилище в Kafka – сводка из блога Uber Technology

Опубликовано 17 августа 2024 г.

Просматривать:915

Tiered Storage in Kafka - Summary from Uber

В технологическом блоге Uber опубликована статья «Введение в многоуровневое хранилище Kafka в Uber», целью которой является максимальное сохранение данных при меньшем количестве брокеров Kafka и меньшем объеме памяти. Это позволяет увеличить время хранения сообщений в различных бизнес-приложениях.

Общим решением является ручная интеграция внешнего хранилища с периодической синхронизацией данных с внешней системой. Однако это требует значительных усилий по разработке и обслуживанию, таких как определение способа сохранения данных, настройка частоты синхронизации, запуск процессов, получение данных и использование индексации.

Поэтому Uber предложил решение, которое инкапсулирует логику внешнего хранилища, делая его готовым к использованию с помощью простых конфигураций. Эта функция разрабатывается в сотрудничестве с Apache Foundation и будет доступна в будущих версиях.

Сценарий

Важно понимать, что Kafka — это компонент очереди сообщений (MQ), предназначенный только для добавления, с очень высокой пропускной способностью. Kafka хранит журналы в локальном хранилище брокера, и пользователи могут настроить время хранения или размер журнала. В моей предыдущей компании (Lenovo) мы использовали Flink для непрерывного потребления данных. Большой объем данных может привести к превышению лимита дискового пространства Kafka, что приведет к сбоям записи данных и бизнес-ошибкам. Чтобы сократить расходы, вместо развертывания большего количества компьютеров мы могли лишь корректировать время хранения.

Кроме того, если бы каждая компания разработала собственную систему для сохранения старых данных во внешнем хранилище, это потребовало бы огромного объема работы по разработке. Также возникнет множество проблем, связанных с синхронизацией и согласованностью данных.

Решение

Суть в том, чтобы трансформировать Брокера, добавив в него удаленное управление логами и хранилищем.

RemoteLogManager: управляет жизненным циклом сегментов удаленного журнала, включая копирование, очистку и выборку.

RemoteStorageManager: управляет действиями для удаленных сегментов журнала, включая копирование, выборку и удаление. Метаданные, связанные с удаленными сегментами журнала, включают информацию о смещениях начала и конца сегмента, метках времени, моментальных снимках состояния производителя и контрольных точках ведущей эпохи.
] RemoteLogMetadataManager отслеживает эти метаданные, чтобы гарантировать, что система знает, где начинается и заканчивается каждый сегмент, а также другую важную информацию, необходимую для поиска данных и управления ими.

RemoteLogMetadataManager: управляет жизненным циклом метаданных для удаленных сегментов журнала с высокой согласованностью.

Среди них RemoteLogManager действует как компонент управления, напрямую подключаясь к диску в брокере для получения считанных данных. Он также отвечает за обратный вызов удаленных данных. RemoteStorageManager — это объект, который работает с данными, а RemoteLogMetadataManager отвечает за управление метаданными.

Краткое описание трех действий в многоуровневом хранилище Kafka

Копирование сегментов в удаленное хранилище
Сегмент журнала считается пригодным для копирования в удаленное хранилище, если его конечное смещение (смещение последнего сообщения в сегменте) меньше, чем последнее стабильное смещение раздела. (Last-Stable-Offset (LSO): наибольшее смещение для которого все предыдущие сообщения полностью подтверждаются всеми синхронизированными репликами, что гарантирует отсутствие потери данных.）RemoteStorageManager обрабатывает копирование сегментов журнала вместе со связанными с ними индексами, временными метками, снимками производителей и кешем ведущей эпохи.
Очистка удаленных сегментов
Удаленные данные очищаются через регулярные промежутки времени путем вычисления подходящих сегментов с помощью выделенного пула потоков. Это отличается от асинхронной очистки сегментов локального журнала. При удалении темы очистка сегментов удаленного журнала выполняется асинхронно и не блокирует существующую операцию удаления или воссоздает новую тему.
Извлечение сегментов из удаленного хранилища
RemoteLogManager определяет целевой удаленный сегмент на основе желаемого смещения и ведущей эпохи, просматривая хранилище метаданных с помощью RemoteLogMetadataManager. Он использует RemoteStorageManager, чтобы найти позицию в сегменте и начать получение нужных данных.

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/bochaoli95/tiered-storage-in-kafka-summary-from-ubers-technology-blog-40cg?1 Если есть какие-либо нарушения, пожалуйста, свяжитесь с [email protected] удалить его

Последний учебник Более>

Паттерны параллелизма в Go; рабочие пулы и разветвление/разветвление
Go известен своей исключительной моделью параллелизма, но многие разработчики сосредотачиваются только на горутинах и каналах. Однако шаблоны параллел...

программирование Опубликовано 6 ноября 2024 г.
Как преобразовать один символ в std::string в C++?
Создание строки из одного символаМожет возникнуть необходимость преобразовать один символ, представленный как тип данных char, в стандартный::строка. ...

программирование Опубликовано 6 ноября 2024 г.
Каково значение знака доллара в именах переменных JavaScript?
Значение знака доллара в именах переменных JavaScriptВ сфере программирования использование соглашений об именах имеет важное значение для улучшения к...

программирование Опубликовано 6 ноября 2024 г.
Как изменить расположение столбцов в макете CSS Grid для обеспечения адаптивности на мобильных устройствах?
Изменение порядка столбцов в макете CSS GridВ макете CSS Grid существуют различные методы изменения порядка столбцов для достижения конкретные макеты....

программирование Опубликовано 6 ноября 2024 г.
Система онлайн-аукционов недели Хактоберфеста
Обзор Во время третьей недели Хактоберфеста я решил внести свой вклад в небольшой, но многообещающий проект: систему онлайн-аукционов. Хотя п...

программирование Опубликовано 6 ноября 2024 г.
Как вы распространяете исключения между потоками в C++, используя «Exception_ptr»?
Распространение исключений между потоками в C Задача распространения исключений между потоками в C возникает, когда функция, вызываемая из основного п...

программирование Опубликовано 6 ноября 2024 г.
Как исправить неровные края в Firefox с помощью 3D-преобразований CSS?
Неровные края в Firefox с 3D-преобразованиями CSSПодобно проблеме неровных краев в Chrome с преобразованиями CSS, Firefox также демонстрирует эту проб...

программирование Опубликовано 6 ноября 2024 г.
Почему функция PHP mail() создает проблемы для доставки электронной почты?
Почему функция PHP mail() не справляется: ограничения и подводные камниХотя PHP предоставляет функцию mail() для отправки электронных писем, она не ра...

программирование Опубликовано 6 ноября 2024 г.
Оптимизируйте преобразование файлов NumPy с помощью npyConverter
Если вы работаете с файлами .npy NumPy и вам необходимо преобразовать их в форматы .mat (MATLAB) или .csv, npyConverter — инструмент для вас! Этот про...

программирование Опубликовано 6 ноября 2024 г.
Как отключить правила Eslint для определенной строки?
Отключение правила Eslint для определенной строкиВ JSHint правила проверки можно отключить для конкретной строки, используя синтаксис: /* jshint igno...

программирование Опубликовано 6 ноября 2024 г.
Как вставлять списки в ячейки DataFrame Pandas без ошибок?
Вставка списков в ячейки PandasПроблемаВ Python попытка вставить список в ячейку Pandas DataFrame может привести к ошибкам или неожиданные результаты....

программирование Опубликовано 6 ноября 2024 г.
Каковы ключевые различия между plt.plot, ax.plot иfigure.add_subplot в Matplotlib?
Различия между графиком, осями и фигурой в MatplotlibMatplotlib — это объектно-ориентированная библиотека Python для создания визуализаций. Он использ...

программирование Опубликовано 6 ноября 2024 г.
FireDucks: получите производительность, превосходящую возможности панд, без затрат на обучение!
Pandas — одна из самых популярных библиотек. Когда я искал более простой способ ускорить ее работу, я обнаружил FireDucks и заинтересовался ею! ...

программирование Опубликовано 6 ноября 2024 г.
CSS Grid: вложенные макеты сетки
Введение CSS Grid — это система макетов, которая быстро завоевала популярность среди веб-разработчиков благодаря своей гибкости и эффективнос...

программирование Опубликовано 6 ноября 2024 г.
Блокнот Jupyter для Java
Мощь Jupyter Notebook Jupyter Notebooks — отличный инструмент, изначально разработанный, чтобы помочь ученым и инженерам, работающим с данным...

программирование Опубликовано 6 ноября 2024 г.