Пропуск строк во время импорта CSV с помощью Pandas
При импорте данных CSV с помощью Pandas часто необходимо пропустить ненужные строки включить в свой анализ. Однако двусмысленность, окружающая аргумент jumprows, может сбить с толку.
Синтаксис jumprows следующий:
skiprows : list-like or integer Row numbers to skip (0-indexed) or number of rows to skip (int) at the start of the file.
Возникает вопрос: как Pandas узнает, следует ли пропустить первую строку или строку с индексом? 1, когда указано Skiprows=1?
Чтобы разобраться в этом, давайте проведем эксперимент, используя образец CSV-файла с тремя строками:
1, 2 3, 4 5, 6
Пропуск строки с индексом 1
Если вы хотите пропустить строку с индексом 1, передайте пропуск строк в виде списка:
import pandas as pd
from io import StringIO
s = """1, 2
... 3, 4
... 5, 6"""
df = pd.read_csv(StringIO(s), skiprows=[1], header=None) # Skip row with index 1
print(df)
Вывод:
0 1 0 1 2 1 5 6
Пропуск количества строк
Чтобы пропустить определенное количество строк (в данном случае 1), передайте пропущенные строки как целое число:
df = pd.read_csv(StringIO(s), skiprows=1, header=None) # Skip the first row
print(df)
Вывод:
0 1 0 3 4 1 5 6
Следовательно, очевидно, что аргумент jumprows ведет себя по-разному в зависимости от того, предоставляете ли вы список или целое число. Если вы хотите пропустить строку по ее индексу, используйте список. В противном случае используйте целое число, чтобы пропустить указанное количество строк с начала файла.
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3