Если вы следите за последними разработками Python, вы, вероятно, слышали о Polars, новой библиотеке для работы с данными. В то время как pandas долгое время была популярной библиотекой, Polars набирает обороты, особенно для обработки больших наборов данных. Итак, в чем же дело с Polars? Чем он отличается от панд? Давайте разберемся.
Polars — это бесплатная библиотека с открытым исходным кодом, созданная на Rust (быстрый современный язык программирования). Он создан, чтобы помочь разработчикам Python обрабатывать данные быстрее и эффективнее. Думайте об этом как об альтернативе пандам, которая отлично подходит, когда вы работаете с действительно большими наборами данных, с которыми панды могут столкнуться с трудностями.
Pandas существует уже много лет, и многие люди до сих пор любят его использовать. Но поскольку данные стали больше и сложнее, панды начали проявлять некоторые слабые стороны. Ричи Винк, создатель Polars, заметил эти проблемы и решил создать что-то более быстрое и эффективное. Даже Уэс МакКинни, создатель панд, в своем блоге, озаглавленном «10 вещей, которые я ненавижу в пандах», признался, что панды нуждаются в некоторых улучшениях, особенно при работе с большими наборами данных.
Именно здесь на помощь приходит Polars: он спроектирован так, чтобы быть невероятно быстрым и эффективно использовать память — две вещи, с которыми панды сталкиваются при обработке больших данных.
действительно быстро. Фактически, некоторые тесты показывают, что Polars могут быть в 5–10 раз быстрее чем панды при выполнении обычных операций, таких как фильтрация или группировка данных. Эта разница в скорости особенно заметна при работе с большими наборами данных.
2.5–10 раз меньше памяти, чем pandas, что означает, что вы можете работать с гораздо большими наборами данных, не сталкиваясь с проблемами памяти.
3.ленивое выполнение, что означает, что он не запускает каждую операцию сразу же, как вы ее пишете. Вместо этого он ждет, пока вы напишете серию операций, а затем запускает их все одновременно. Это помогает оптимизировать и выполнять работу быстрее. Pandas, с другой стороны, выполняет каждую операцию немедленно, что может быть медленнее для больших задач.
4.несколько ядер ЦП одновременно для обработки данных, что делает обработку больших наборов данных еще быстрее. Pandas в основном однопоточный, то есть он может использовать только одно ядро ЦП одновременно, что замедляет работу, особенно с большими наборами данных.
наборами данных малого и среднего размера и существует так долго, что обладает множеством функций и огромным сообществом. Так что, если вы не работаете с огромными наборами данных, панды все равно могут быть вашим лучшим вариантом.
Однако по мере того, как ваши наборы данных становятся больше, pandas имеет тенденцию использовать больше памяти и работать медленнее, что делает Polars лучшим выбором в таких ситуациях.
Polars. Повышение производительности благодаря Rust и Apache Arrow делает его фантастическим вариантом для задач с интенсивным использованием данных.
Поскольку Python продолжает развиваться, Polars может стать новым инструментом перехода к работе с большими данными.Удачного кодирования? ?
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3