«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Polars против Pandas: Новая эра фреймов данных в Python?

Polars против Pandas: Новая эра фреймов данных в Python?

Опубликовано 27 сентября 2024 г.
Просматривать:284

Polars vs. Pandas A New Era of Dataframes in Python ?

Полярные и панды: в чем разница?

Если вы следите за последними разработками Python, вы, вероятно, слышали о Polars, новой библиотеке для работы с данными. В то время как pandas долгое время была популярной библиотекой, Polars набирает обороты, особенно для обработки больших наборов данных. Итак, в чем же дело с Polars? Чем он отличается от панд? Давайте разберемся.


Что такое Поларс?

Polars — это бесплатная библиотека с открытым исходным кодом, созданная на Rust (быстрый современный язык программирования). Он создан, чтобы помочь разработчикам Python обрабатывать данные быстрее и эффективнее. Думайте об этом как об альтернативе пандам, которая отлично подходит, когда вы работаете с действительно большими наборами данных, с которыми панды могут столкнуться с трудностями.


Почему были созданы поляры?

Pandas существует уже много лет, и многие люди до сих пор любят его использовать. Но поскольку данные стали больше и сложнее, панды начали проявлять некоторые слабые стороны. Ричи Винк, создатель Polars, заметил эти проблемы и решил создать что-то более быстрое и эффективное. Даже Уэс МакКинни, создатель панд, в своем блоге, озаглавленном «10 вещей, которые я ненавижу в пандах», признался, что панды нуждаются в некоторых улучшениях, особенно при работе с большими наборами данных.

Именно здесь на помощь приходит Polars: он спроектирован так, чтобы быть невероятно быстрым и эффективно использовать память — две вещи, с которыми панды сталкиваются при обработке больших данных.


Ключевые различия: полярные особи против панд

1.

Скорость

Polars — это

действительно быстро. Фактически, некоторые тесты показывают, что Polars могут быть в 5–10 раз быстрее чем панды при выполнении обычных операций, таких как фильтрация или группировка данных. Эта разница в скорости особенно заметна при работе с большими наборами данных.

2.

Использование памяти

Polars намного эффективнее, когда дело касается памяти. Он использует примерно в

5–10 раз меньше памяти, чем pandas, что означает, что вы можете работать с гораздо большими наборами данных, не сталкиваясь с проблемами памяти.

3.

Отложенное выполнение

Polars использует так называемое

ленивое выполнение, что означает, что он не запускает каждую операцию сразу же, как вы ее пишете. Вместо этого он ждет, пока вы напишете серию операций, а затем запускает их все одновременно. Это помогает оптимизировать и выполнять работу быстрее. Pandas, с другой стороны, выполняет каждую операцию немедленно, что может быть медленнее для больших задач.

4.

Многопоточность

Polars может использовать

несколько ядер ЦП одновременно для обработки данных, что делает обработку больших наборов данных еще быстрее. Pandas в основном однопоточный, то есть он может использовать только одно ядро ​​ЦП одновременно, что замедляет работу, особенно с большими наборами данных.


Почему Polars такие быстрые?

Polars работает быстро по нескольким причинам:

    Он создан на
  • Rust, языке программирования, известном своей скоростью и безопасностью, что делает его очень эффективным.
  • Он использует
  • Apache Arrow, особый способ хранения данных в памяти, который упрощает и ускоряет работу с различными языками программирования.
Эта комбинация Rust и Apache Arrow дает Polars преимущество перед пандами, когда дело касается скорости и использования памяти.


Сильные стороны и ограничения Pandas

Хотя Polars отлично подходит для больших данных, панды по-прежнему имеют свое место. Pandas очень хорошо работает с

наборами данных малого и среднего размера и существует так долго, что обладает множеством функций и огромным сообществом. Так что, если вы не работаете с огромными наборами данных, панды все равно могут быть вашим лучшим вариантом.

Однако по мере того, как ваши наборы данных становятся больше, pandas имеет тенденцию использовать больше памяти и работать медленнее, что делает Polars лучшим выбором в таких ситуациях.


Когда следует использовать поляры?

Вам следует рассмотреть возможность использования Polars, если:

    Вы работаете с
  • большими наборами данных (миллионы или миллиарды строк).
  • Чтобы быстро выполнять задачи, вам нужны
  • скорость и производительность.
  • У вас
  • ограничение памяти, и вам необходимо сэкономить на объеме используемой оперативной памяти.

Заключение

И полярные, и панды имеют свои сильные стороны. Если вы работаете с небольшими и средними наборами данных, pandas по-прежнему остается отличным инструментом. Но если вы имеете дело с большими наборами данных и вам нужно что-то более быстрое и эффективное по использованию памяти, определенно стоит попробовать

Polars. Повышение производительности благодаря Rust и Apache Arrow делает его фантастическим вариантом для задач с интенсивным использованием данных.

Поскольку Python продолжает развиваться, Polars может стать новым инструментом перехода к работе с большими данными.

Удачного кодирования? ?

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/aashwinkumar/polars-vs-pandas-a-new-era-of-dataframes-in-python--1654?1 Если есть какие-либо нарушения, пожалуйста, свяжитесь с Study_golang@ 163.com, чтобы удалить его.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3