데이터 작업은 프로그래밍에서 피할 수 없는 부분이며, 다양한 파일 형식에 푹 빠져 있는 사람으로서 저는 Python이 전체 프로세스를 단순화하는 방식을 항상 높이 평가해 왔습니다.
특히 데이터 분석에서 정기적으로 나타나는 파일 형식 중 하나는 CSV 파일입니다.
CSV(쉼표로 구분된 값)는 단순성으로 인해 널리 사용되는 데이터 교환 형식입니다.
다행히도 Python에는 csv라는 내장 모듈이 제공되어 이러한 파일 작업을 매우 효율적으로 수행할 수 있습니다.
이 기사에서는 기본적인 사용법부터 데이터 처리 시 엄청난 시간을 절약할 수 있는 고급 기술까지 Python에서 csv 모듈이 작동하는 방식을 자세히 설명합니다.
csv 모듈을 살펴보기 전에 CSV 파일이 무엇인지에 대한 기본적인 이해부터 시작하겠습니다.
CSV 파일은 본질적으로 각 줄이 데이터 행을 나타내고 각 값이 쉼표(또는 때로는 탭과 같은 다른 구분 기호)로 구분되는 일반 텍스트 파일입니다.
다음은 그 모습에 대한 간단한 예입니다.
Name,Age,Occupation Alice,30,Engineer Bob,25,Data Scientist Charlie,35,Teacher
CSV 파일이 이론적으로 Python의 표준 파일 처리 방법을 사용하여 읽을 수 있는 텍스트 파일일 뿐인데 왜 csv 모듈이 필요한지 궁금할 것입니다.
그렇지만 CSV 파일에는 삽입된 쉼표, 셀 내 줄 바꿈, 다양한 구분 기호 등 수동으로 처리하기 어려운 복잡성이 있을 수 있습니다.
csv 모듈은 이 모든 것을 추상화하므로 데이터에 집중할 수 있습니다.
코드로 들어가 보겠습니다.
CSV 파일에 대해 수행하는 가장 일반적인 작업은 내용을 읽는 것입니다.
모듈의 csv.reader() 함수는 이를 위한 사용하기 쉬운 도구입니다.
다음은 수행 방법에 대한 단계별 가이드입니다.
기본 CSV 읽기
import csv # Open a CSV file with open('example.csv', 'r') as file: reader = csv.reader(file) # Iterate over the rows for row in reader: print(row)
이것은 CSV 파일을 읽는 가장 간단한 방법입니다.
csv.reader()는 반복 가능한 항목을 반환하며, 각 반복은 파일의 행을 나타내는 목록을 제공합니다.
헤더 처리
대부분의 CSV 파일에는 열 이름과 같이 첫 번째 행에 헤더가 있습니다.
이러한 헤더가 필요하지 않으면 반복할 때 첫 번째 행을 건너뛰면 됩니다.
import csv with open('example.csv', 'r') as file: reader = csv.reader(file) # Skip header next(reader) for row in reader: print(row)
가끔 유용한 데이터와 관련 없는 데이터가 혼합된 파일을 사용하여 작업할 때 헤더 이상의 내용을 기준으로 행을 건너뛰는 경우가 있습니다.
이 작업은 for 루프 내에서 쉽게 수행할 수 있습니다.
DictReader: CSV 파일을 읽는 더욱 직관적인 방법
CSV 파일에 헤더가 있는 경우 csv.DictReader()는 각 행을 사전으로 읽는 또 다른 환상적인 옵션이며 키는 열 이름입니다:
import csv with open('example.csv', 'r') as file: reader = csv.DictReader(file) for row in reader: print(row)
이 접근 방식을 사용하면 특히 대규모 데이터 세트로 작업할 때 코드를 더 읽기 쉽고 직관적으로 만들 수 있습니다.
예를 들어 ['Name'] 행에 액세스하는 것은 row[0]과 같은 인덱스 기반 액세스를 처리하는 것보다 훨씬 명확하게 느껴집니다.
데이터를 읽고 처리한 후에는 저장하거나 내보내고 싶을 가능성이 높습니다.
csv.writer() 함수는 CSV 파일에 쓰기 위한 유용한 도구입니다.
기본 CSV 작성
import csv # Data to be written data = [ ['Name', 'Age', 'Occupation'], ['Alice', 30, 'Engineer'], ['Bob', 25, 'Data Scientist'], ['Charlie', 35, 'Teacher'] ] # Open a file in write mode with open('output.csv', 'w', newline='') as file: writer = csv.writer(file) # Write data to the file writer.writerows(data)
writer.writerows() 함수는 목록 목록을 가져와서 CSV 파일에 씁니다. 여기서 각 내부 목록은 데이터 행을 나타냅니다.
DictWriter: CSV 파일을 작성하는 더욱 깔끔한 방법
CSV 파일을 사전으로 읽어들이는 DictReader가 있는 것처럼 사전을 CSV로 작성하는 DictWriter도 있습니다.
이 방법은 열 이름을 명시적으로 지정하려는 경우 특히 유용합니다.
import csv # Data as list of dictionaries data = [ {'Name': 'Alice', 'Age': 30, 'Occupation': 'Engineer'}, {'Name': 'Bob', 'Age': 25, 'Occupation': 'Data Scientist'}, {'Name': 'Charlie', 'Age': 35, 'Occupation': 'Teacher'} ] # Open file for writing with open('output.csv', 'w', newline='') as file: fieldnames = ['Name', 'Age', 'Occupation'] writer = csv.DictWriter(file, fieldnames=fieldnames) # Write the header writer.writeheader() # Write the data writer.writerows(data)
DictWriter를 사용하면 코드를 읽기 쉽고 간결하게 유지하면서 CSV에 사전을 작성할 수 있는 멋지고 깔끔한 인터페이스를 얻을 수 있습니다.
기본적으로 CSV 모듈은 쉼표를 사용하여 값을 구분하지만 때로는 탭이나 세미콜론과 같은 다른 구분 기호를 사용하는 파일로 작업할 수도 있습니다.
csv 모듈은 구분 기호 인수를 지정하여 이러한 경우를 쉽게 처리할 수 있는 방법을 제공합니다.
import csv with open('example_tab.csv', 'r') as file: reader = csv.reader(file, delimiter='\t') for row in reader: print(row)
일반적으로 유럽 소스에서 쉼표 대신 세미콜론을 사용하는 CSV 파일을 발견했는데 Python의 csv 모듈이 이를 쉽게 처리한다는 사실을 알면 마음이 편해집니다.
쉼표, 탭 또는 기타 구분 기호 등 csv 모듈을 사용하면 됩니다.
데이터에 필드, 따옴표 또는 줄 바꿈 안에 쉼표가 포함되어 있으면 어떻게 되나요?
CSV 모듈은 인용 메커니즘을 사용하여 이러한 경우를 자동으로 처리합니다.
인용 매개변수를 사용하여 인용 작동 방식을 제어할 수도 있습니다.
import csv data = [ ['Name', 'Occupation', 'Description'], ['Alice', 'Engineer', 'Works on, "cutting-edge" technology'], ['Bob', 'Data Scientist', 'Loves analyzing data.'] ] with open('complex.csv', 'w', newline='') as file: writer = csv.writer(file, quoting=csv.QUOTE_ALL) writer.writerows(data)
이 예에서 QUOTE_ALL은 모든 필드가 따옴표로 묶이도록 합니다.
기타 인용 옵션으로는 csv.QUOTE_MINIMAL, csv.QUOTE_NONNUMERIC 및 csv.QUOTE_NONE이 있으며, 이를 통해 CSV 데이터 형식을 완벽하게 제어할 수 있습니다.
수년에 걸쳐 저는 데이터를 이동하는 가볍고 효율적인 방법으로 CSV 형식을 사용하게 되었으며, Python의 csv 모듈은 그 여정에서 믿음직한 동반자였습니다.
간단한 스프레드시트를 처리하든 복잡한 여러 줄의 데이터 필드를 처리하든 이 모듈을 사용하면 프로세스가 직관적이고 수월해집니다.
CSV로 작업하는 것은 처음에는 평범한 작업처럼 보일 수 있지만 데이터 조작을 마스터하는 관문입니다.
제 경험에 따르면 CSV를 정복하고 나면 JSON이나 SQL 데이터베이스와 같이 더 크고 복잡한 형식을 자신 있게 다룰 수 있게 될 것입니다. 결국 모든 것은 기본부터 시작됩니다.
부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.
Copyright© 2022 湘ICP备2022001581号-3