Pandas: извлечение чисел из строк
При работе с фреймами данных в Pandas часто необходимо извлечь числовую информацию из ячеек, содержащих не -числовые символы. Это может быть непросто, но Pandas предоставляет несколько методов, которые помогут вам в этом.
Использование str.extract() для извлечения чисел
Один эффективный метод извлечения чисел из строки — это str.extract(). Этот метод позволяет вам указать шаблон регулярного выражения, который определяет числовые данные, которые вы хотите захватить.
Рассмотрим следующий фрейм данных:
import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
})
print(df)
Вывод:
A 0 1a 1 NaN 2 10a 3 100b 4 0b
Чтобы извлечь числа из каждой ячейки, вы можете использовать следующее регулярное выражение:
df.A.str.extract('(\d )')
Шаблон регулярного выражения (\d) фиксирует любую последовательность из одной или нескольких цифр. Круглые скобки вокруг шаблона создают группу захвата, которая используется для возврата совпавшей части строки.
Вывод:
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
Как видите, нужные числа были успешно извлечены из каждой ячейки, даже из тех, которые содержали нечисловые символы. Обратите внимание, что этот метод будет работать только для целых чисел, а не для чисел с плавающей запятой.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3