Отбрасывание дубликатов по нескольким столбцам в Python Pandas
Функция Pandas Drop_duplicates устраняет дублированные строки из данных данных, неотесточенный инструмент для очистки данных. Чтобы расширить эту функциональность, можно указать столбцы для проверки уникальности. 0 foo 0 a 1 foo 1 a 2 foo 1 b 3 Бар 1 A
Предположим, вы хотите удалить строки, которые имеют идентичные значения в столбцах 'A' и 'C.' В этом случае ряды 0 и 1 будут устранены. Однако, с улучшенной функцией Drop_duplicates Pandas, теперь это ветерок. Введение параметра Keep позволяет управлять тем, как обрабатываются дубликаты. Настройка сохраняйте ложные df = pd.dataframe ({"a": ["foo", "foo", "foo", "bar"], "b": [0,1,1,1], "c": ["a", ",", "b", "a"]}) df.drop_duplicates (subsem = ['a', 'c'], Keep = false)
A B C 0 foo 0 A 1 foo 1 A 2 foo 1 B 3 bar 1 A
a b c 2 foo 1 b 3 Бар 1 a
Как видите, строки 0 и 1 успешно удалены, оставляя только те строки, которые являются уникальными на основе значений в столбцах «a» и 'c.'
Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3