Почему строки в DataFrame хранятся как объекты?
Несмотря на явное преобразование столбцов DataFrame, содержащих строки, в строковый тип данных, библиотека Python Pandas может все еще сообщать о них как об объектах. Это несоответствие возникает из-за базовых структур данных NumPy.
NumPy использует ndarrays для хранения массивов данных, причем каждый элемент в ndarray имеет фиксированное количество байтов. Для целых чисел (int64) и чисел с плавающей запятой (float64) каждый элемент занимает 8 байт. Однако строки имеют переменную длину, поэтому хранить их непосредственно в ndarray непрактично.
Чтобы учесть это, Pandas использует объектные массивы ndarray для хранения указателей на объекты. Эти объекты содержат фактические строковые значения. В результате объекты ndarrays имеют неопределенный размер и представляются как тип данных «объект».
Пример:
Рассмотрим массив int64, содержащий четыре 64-битных целые числа и массив объектов, содержащий четыре указателя на три строковых объекта:
int64 array: | 1 | 2 | 3 | 4 | object array: | pointer to "hello" | pointer to "world" | pointer to "!" | Visualization: --------- ----------- | int64 | object | |--------- -----------| | 1 | hello | | 2 | world | | 3 | ! | | 4 | null | --------- -----------
В этом представлении массив int64 занимает фиксированный объем пространства, при этом каждый элемент имеет размер 8 байт. С другой стороны, массив объектов хранит указатели на объекты разных размеров, отсюда и тип данных «объект».
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3