Python에서 대용량 파일 처리 및 파일 작업 최적화

첫 장 > 프로그램 작성 > Python에서 대용량 파일 처리 및 파일 작업 최적화

Python에서 대용량 파일 처리 및 파일 작업 최적화

2024-11-04에 게시됨

검색:765

Handling Large Files and Optimizing File Operations in Python

이 블로그 시리즈에서는 기본부터 시작하여 점차적으로 고급 기술로 진행하면서 Python에서 파일을 처리하는 방법을 살펴보겠습니다.

이 시리즈를 마치면 Python의 파일 작업에 대해 깊이 있게 이해하게 되어 파일에 저장된 데이터를 효율적으로 관리하고 조작할 수 있게 됩니다.

이 시리즈는 5개의 게시물로 구성되며 각 게시물은 이전 게시물의 지식을 바탕으로 작성됩니다.

Python의 파일 처리 소개: 파일 읽기 및 쓰기
다양한 파일 모드 및 파일 형식 작업
(이 게시물) Python에서 대용량 파일 처리 및 파일 작업
강력한 파일 작업을 위한 컨텍스트 관리자 및 예외 처리 사용
고급 파일 작업: CSV, JSON 및 바이너리 파일 작업

Python 프로젝트가 성장함에 따라 동시에 메모리에 쉽게 로드할 수 없는 대용량 파일을 처리할 수도 있습니다.

대용량 파일을 효율적으로 처리하는 것은 성능을 위해 매우 중요하며, 특히 수 기가바이트에 달하는 데이터 처리 작업, 로그 파일 또는 데이터 세트로 작업할 때 더욱 그렇습니다.

이 블로그 게시물에서는 Python에서 대용량 파일을 읽고, 쓰고, 처리하여 애플리케이션의 응답성과 효율성을 유지하는 전략을 살펴보겠습니다.

대용량 파일의 과제

대용량 파일로 작업할 때 다음과 같은 몇 가지 문제에 직면할 수 있습니다.

메모리 사용량: 대용량 파일을 메모리에 완전히 로드하면 상당한 리소스가 소비되어 성능이 저하되거나 프로그램이 충돌할 수도 있습니다.
성능: 최적화되지 않으면 대용량 파일 작업이 느려져 처리 시간이 늘어날 수 있습니다.
확장성: 파일 크기가 커짐에 따라 애플리케이션 효율성을 유지하기 위해 확장 가능한 솔루션의 필요성이 더욱 중요해지고 있습니다.

이러한 문제를 해결하려면 성능이나 안정성을 저하시키지 않고 대용량 파일을 작업할 수 있는 전략이 필요합니다.

대용량 파일을 효율적으로 읽기

대용량 파일을 처리하는 가장 좋은 방법 중 하나는 전체 파일을 메모리에 로드하는 대신 작은 단위로 읽는 것입니다.

Python은 이를 달성하기 위한 여러 기술을 제공합니다.

루프를 사용하여 파일을 한 줄씩 읽기

파일을 한 줄씩 읽는 것은 대용량 텍스트 파일을 처리하는 가장 메모리 효율적인 방법 중 하나입니다.

이 접근 방식은 읽은 각 줄을 처리하므로 사실상 모든 크기의 파일로 작업할 수 있습니다.

# Open the file in read mode
with open('large_file.txt', 'r') as file:
    # Read and process the file line by line
    for line in file:
        # Process the line (e.g., print, store, or analyze)
        print(line.strip())

이 예에서는 for 루프를 사용하여 파일을 한 줄씩 읽습니다.

strip() 메서드는 개행 문자를 포함하여 선행 또는 후행 공백을 제거합니다.

이 방법은 각 줄이 별도의 레코드를 나타내는 로그 파일이나 데이터 세트를 처리하는 데 이상적입니다.

고정 크기 청크 읽기

어떤 경우에는 파일을 한 줄씩 읽는 대신 고정된 크기의 청크로 읽어야 할 수도 있습니다.

이진 파일로 작업하거나 파일을 데이터 블록으로 처리해야 할 때 유용할 수 있습니다.

# Define the chunk size
chunk_size = 1024  # 1 KB

# Open the file in read mode
with open('large_file.txt', 'r') as file:
    # Read the file in chunks
    while True:
        chunk = file.read(chunk_size)
        if not chunk:
            break
        # Process the chunk (e.g., print or store)
        print(chunk)

이 예에서는 청크 크기를 1KB로 지정하고 해당 크기의 청크로 파일을 읽습니다.

while 루프는 더 이상 읽을 데이터가 없을 때까지(청크가 비어 있음) 계속해서 읽습니다.

이 방법은 대용량 바이너리 파일을 처리하거나 특정 바이트 범위로 작업해야 할 때 특히 유용합니다.

효율적으로 대용량 파일 쓰기

읽기와 마찬가지로 대용량 파일을 효율적으로 작성하는 것은 성능에 매우 중요합니다.

데이터를 청크 또는 배치로 작성하면 메모리 문제를 방지하고 작업 속도를 향상시킬 수 있습니다.

청크로 데이터 쓰기

파일에 많은 양의 데이터를 쓸 때는 한 줄씩 쓰는 것보다 덩어리로 쓰는 것이 더 효율적입니다. 특히 이진 데이터로 작업하거나 큰 텍스트 파일을 생성하는 경우에는 더욱 그렇습니다.

data = ["Line 1\n", "Line 2\n", "Line 3\n"] * 1000000  # Example large data

# Open the file in write mode
with open('large_output_file.txt', 'w') as file:
    for i in range(0, len(data), 1000):
        # Write 1000 lines at a time
        file.writelines(data[i:i 1000])

이 예에서는 큰 줄 목록을 생성하고 이를 1000줄씩 일괄적으로 파일에 씁니다.

이 접근 방식은 각 줄을 개별적으로 작성하는 것보다 더 빠르고 메모리 효율적입니다.

파일 작업 최적화

데이터를 효율적으로 읽고 쓰는 것 외에도 대용량 파일을 보다 효과적으로 처리하는 데 사용할 수 있는 몇 가지 다른 최적화 기술이 있습니다.

파일 탐색을 위해 검색() 및 Tell() 사용

Python의 검색() 및 Tell() 기능을 사용하면 전체 내용을 읽지 않고도 파일을 탐색할 수 있습니다.

이 기능은 대용량 파일의 특정 부분으로 건너뛰거나 특정 지점에서 작업을 재개하는 데 특히 유용합니다.

seek(offset, whence): 파일 커서를 특정 위치로 이동합니다. 오프셋은 이동할 바이트 수이며 참조 지점(시작, 현재 위치 또는 끝)이 결정되는 위치입니다.
tell(): 파일 커서의 현재 위치를 반환합니다.

예:eek() 및 Tell()을 사용하여 파일 탐색# 읽기 모드에서 파일 열기

with open('large_file.txt', 'r') as file:
    # Move the cursor 100 bytes from the start of the file
    file.seek(100)

    # Read and print the next line
    line = file.readline()
    print(line)

    # Get the current cursor position
    position = file.tell()
    print(f"Current position: {position}")

이 예에서는 검색()을 사용하여 커서를 파일로 100바이트 이동한 후 다음 줄을 읽습니다.

tell() 함수는 커서의 현재 위치를 반환하므로 파일에서 현재 위치를 추적할 수 있습니다.

대용량 바이너리 파일에 memoryview 사용

대형 바이너리 파일을 처리하기 위해 Python의 memoryview 객체를 사용하면 전체 파일을 메모리에 로드하지 않고도 바이너리 파일 조각으로 작업할 수 있습니다.

이는 대용량 바이너리 파일을 수정하거나 분석해야 할 때 특히 유용합니다.

예: 바이너리 파일과 함께 memoryview 사용# 읽기 모드에서 바이너리 파일 열기

with open('large_binary_file.bin', 'rb') as file:
    # Read the entire file into a bytes object
    data = file.read()

    # Create a memoryview object
    mem_view = memoryview(data)

    # Access a slice of the binary data
    slice_data = mem_view[0:100]

    # Process the slice (e.g., analyze or modify)
    print(slice_data)

이 예에서는 바이너리 파일을 bytes 객체로 읽고 memoryview 객체를 생성하여 데이터의 특정 조각에 액세스합니다.

이를 통해 메모리 사용량을 최소화하여 대용량 파일을 보다 효율적으로 작업할 수 있습니다.

결론

Python에서 대용량 파일을 처리하는 것이 어려운 작업일 필요는 없습니다.

파일을 청크로 읽고 쓰고, see() 및 Tell()을 사용하여 파일 탐색을 최적화하고, memoryview와 같은 도구를 사용하면 성능 문제 없이 가장 큰 파일도 효율적으로 관리할 수 있습니다.

다음 게시물에서는 컨텍스트 관리자와 예외 처리를 사용하여 파일 작업을 더욱 강력하게 만드는 방법에 대해 논의하겠습니다.

이러한 기술은 예상치 못한 오류가 발생하더라도 파일 처리 코드가 효율적이고 안정적임을 보장하는 데 도움이 됩니다.

릴리스 선언문 이 기사는 https://dev.to/devasservice/handling-large-files-and-optimizing-file-Operations-in-python-47lm?1에서 복제됩니다. 침해가 있는 경우, [email protected]에 문의하십시오. 그것을 삭제하려면

최신 튜토리얼 더>

대용량 csv 파일 비교 #eg38
다음은 동일한 구조의 두 개의 csv 파일(A와 B)입니다. 둘 다 KEY_A, KEY_B, KEY_C를 기본 키로 사용하며 서로 다른 레코드를 갖습니다. Java를 사용하여 세 가지 방법으로 두 파일을 비교하고 결과를 각각 새 csv 파일에 씁니다. 1. 기본 키가 ...

프로그램 작성 2024-11-08에 게시됨
JavaScript의 고유한 속성을 기반으로 개체 배열을 병합하는 방법은 무엇입니까?
JavaScript의 고유 항목을 기반으로 배열 결합배열 병합은 JavaScript에서 일반적인 작업일 수 있으며, 특히 다음을 기반으로 데이터를 결합해야 하는 경우 더욱 그렇습니다. 특정 기준. 이 특정 인스턴스의 목표는 공유 lineNumber 속성을 기반으로 개체...

프로그램 작성 2024-11-08에 게시됨
React에서 사용자 정의 Hook 이해 및 생성
목차 전제조건 설치 소개 맞춤 후크란 무엇인가요? 언제 사용자 정의 후크를 만들어야 합니까? 예: 사용자 정의 후크 생성 1단계: 재사용 가능한 논리 식별 2단계: 커스텀 후크로 로직 추출 3단계: 맞춤 후크 사용 맞춤 후크의 이점 맞춤 Hook 모범 ...

프로그램 작성 2024-11-08에 게시됨
포커스를 감지하여 브라우저 탭에서 리소스 사용량을 최적화하는 방법은 무엇입니까?
최적화된 리소스 사용을 위한 브라우저 탭 포커스 감지웹페이지에 민감한 정보가 포함되어 있거나 네트워크 리소스를 소모하는 집중적인 작업을 수행하는 경우 포커스를 관리합니다. 브라우저 탭의 수가 중요해집니다. 특정 탭에 현재 초점이 맞춰져 있는지 감지하면 리소스 사용을 최...

프로그램 작성 2024-11-08에 게시됨
$빈 데이터 세트에서 MySQL의 SUM 함수를 사용할 때 NULL 대신 \'0\'을 반환하는 방법은 무엇입니까?$
빈 데이터 세트에서 MySQL의 SUM 함수를 사용할 때 NULL 대신 \'0\'을 반환하는 방법은 무엇입니까?
값이 없을 때 MySQL의 SUM 함수에서 '0'을 검색하는 방법MySQL의 SUM 함수는 숫자를 집계하는 편리한 방법을 제공합니다. 가치. 그러나 쿼리 중에 일치하는 행이 없으면 SUM 함수는 일반적으로 NULL 값을 반환합니다. 일부 사용 사례에서는 ...

프로그램 작성 2024-11-08에 게시됨
Visual Studio 2012는 어떤 C++11 기능을 제공합니까?
Visual Studio 2012의 C 11 기능 탐색VS2010의 후속 제품인 Visual Studio 2012에 대한 기대가 높아지면서 개발자들은 열의를 갖고 있습니다. C 11 기능이 무엇인지 알아보세요.Visual Studio 2012의 새로운 C 11 기능Vi...

프로그램 작성 2024-11-08에 게시됨
Java가 엔터프라이즈 소프트웨어 아키텍처에 미치는 영향 이후 Java 개발 방식의 발전
Java has long been a cornerstone of enterprise software development, offering a robust platform for building scalable and maintainable applications. ...

프로그램 작성 2024-11-08에 게시됨
Python에서 하위 프로세스 출력을 파일과 터미널로 동시에 리디렉션하는 방법은 무엇입니까?
Python에서 하위 프로세스의 결과를 파일과 터미널에 동시에 출력하는 방법subprocess.call()을 사용할 때 다음을 지정할 수 있습니다. outf 및 errf와 같은 파일 설명자를 사용하여 stdout 및 stderr을 특정 파일로 리디렉션합니다. 그러나 이...

프로그램 작성 2024-11-08에 게시됨
관계나 능력, 이 두 가지 기준이 모두 사용됩니다.
사회에서 사람의 능력과 가치를 평가할 때 '관계에 기초'하는 기준과 '능력에 기초'하는 두 가지 기준이 있는 경우가 많다. 두 표준 모두 서로 다른 문화, 산업, 개인적 가치관으로 구체화되어 있으며 각각 지지자와 비방자가 있습니다. 프로그래...

프로그램 작성 2024-11-08에 게시됨
왜 원격 근무를 할 수 없었나요?
이 글은 좌절감에 대한 글이 아니라 제가 지난 1년간 헤쳐왔던 현실입니다. 다양한 원격 취업 플랫폼을 통해 지원하고 LinkedIn을 활용했음에도 불구하고 아직 한 번도 면접을 본 적이 없습니다. 저는 방글라데시 다카에 거주하는 ReactJS, NextJS, JavaS...

프로그램 작성 2024-11-08에 게시됨
Litlyx - 퍼널 이벤트 소개
Litlyx는 웹 분석 수집을 위한 올인원 도구로서 스위스 군용 칼이 되고 있습니다. 구현은 30초도 안 걸릴 정도로 매우 쉽습니다! 가장 좋은 점은 무엇인가요? 우리는 역대 가장 간단한 사용자 경험으로 맞춤형 이벤트 추적을 제공합니다. 저희 대시보드에서는 모든 것이 ...

프로그램 작성 2024-11-08에 게시됨
URL 단축기를 처음부터 만드는 방법
애플리케이션을 처음부터 만드는 것은 애플리케이션의 작동 방식을 배울 수 있는 가장 좋은 방법입니다. 이 게시물에서는 URL 단축기를 처음부터 만드는 방법에 대해 설명합니다. URL 단축기는 만들기가 매우 쉽고, 제 생각에는 초보자가 언어를 배울 수 있는 좋은 방법입니다...

프로그램 작성 2024-11-08에 게시됨
신속한 엔지니어링(게으른 프로그래머용): 정확히 원하는 코드 얻기(그리고 ChatGPT에서 더 나아가)
빌 게이츠는 모든 것을 말했습니다... 게으른 프로그래머가 되십시오!. 프로그래머로서 버그도 없고 끝없는 디버깅도 없이 즉시 작동하는 코드보다 더 좋은 것은 없습니다. 특정 프롬프트 기술을 따르면 ChatGPT가 코드뿐만 아니라 최적화되고 완벽하게 작동하며 문서화된 코...

프로그램 작성 2024-11-08에 게시됨
React vs. Vue vs. Svelte의 JavaScript 프레임워크 – 어느 것을 선택해야 할까요?
JavaScript 프레임워크는 지난 몇 년 동안 크게 발전하여 최신 웹 애플리케이션의 중추가 되었습니다. 2024년에는 React, Vue 및 Svelte가 가장 인기 있는 프레임워크로 두각을 나타내며 각각 고유한 장점과 단점을 가지고 있습니다. 새로운 웹 애플리케이...

프로그램 작성 2024-11-08에 게시됨
Spring Boot 애플리케이션의 성능 개선 - 1부
Spring Boot 애플리케이션을 시작할 때 일반적으로 스타터에서 제공하는 기본 설정을 사용하는데, 이는 대부분의 경우에 충분합니다. 그러나 성능이 필요한 경우 이 문서의 첫 번째 부분에서 설명하는 것처럼 특정 조정이 가능합니다. Tomcat을 다른 서...

프로그램 작성 2024-11-08에 게시됨