Pandas를 사용하여 세미콜론으로 구분된 .CSV 파일 구문 분석
쉼표로 구분된 값(CSV) 파일을 처리할 때는 올바르게 처리하는 것이 중요합니다. 정확한 데이터 구문 분석을 보장하는 구분 기호입니다. Pandas는 세미콜론과 같은 비표준 구분 기호가 있는 CSV 파일을 읽기 위한 간단한 솔루션을 제공합니다.
이 시나리오를 고려하십시오. 다음과 유사한 형식의 .csv 파일이 있습니다.
a1;b1;c1;d1;e1;... a2;b2;c2;d2;e2;...
이 파일을 Pandas DataFrame으로 가져오려면 read_csv() 함수를 사용할 수 있습니다. 그러나 기본적으로 pandas는 구분 기호가 쉼표라고 가정합니다. 세미콜론 구분 기호를 지정하려면 다음과 같이 sep 매개 변수를 사용합니다.
import pandas as pd
csv_path = "C:...."
data = pd.read_csv(csv_path, sep=';')
sep 매개변수 지정을 잊어버린 경우 pandas의 기본 동작은 모든 데이터를 단일 열로 처리하는 것이므로 인쇄할 때 잘못된 결과가 발생합니다. DataFrame.
이 기본 동작의 이유는 Pandas가 쉼표가 가장 일반적인 구분 기호라고 가정하기 때문입니다. sep 매개변수를 제공하면 팬더에게 세미콜론을 구분 기호로 사용하도록 명시적으로 지시하여 데이터의 올바른 구문 분석을 보장할 수 있습니다.
요약하자면, 팬더에서 세미콜론으로 구분된 CSV 파일을 처리할 때 항상 다음을 지정하는 것을 기억하세요. 9월=';' 정확한 데이터 구문 분석을 얻으려면 read_csv() 함수를 사용하세요.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3