Python으로 XML 필드 검사를 자동화한 날

첫 장 > 프로그램 작성 > Python으로 XML 필드 검사를 자동화한 날

Python으로 XML 필드 검사를 자동화한 날

2024-08-27에 게시됨

검색:948

The Day I Automated XML Field Checking with Python

모든 것은 여러 XML 파일에서 누락된 필드를 확인하는 임무를 받았을 때 시작되었습니다. 팀에서는 다음 단계를 진행하기 전에 이러한 파일에 모든 필수 필드가 있는지 확인해야 했습니다. 충분히 간단하게 들리죠? 음, 그렇지는 않습니다.

첫 번째 XML 파일을 열고 속성을 검색한 후 수동으로 필수 필드를 찾은 다음 상자를 선택했습니다. 예상하셨겠지만, 매우 빨리 피곤해졌습니다. 한 파일에 몇 분만 저장한 후에는 눈이 번쩍 뜨이고 중요한 것을 놓치지 않았다는 확신이 전혀 없었습니다. 즉, XML은 매우 까다로울 수 있으며 필드 하나가 누락되어도 심각한 문제가 발생할 수 있습니다.

아직 처리해야 할 파일이 많다는 사실에 뼈아픈 두려움이 생겼습니다. 물론 정확성이 매우 중요했습니다. 하나의 누락된 필드가 간과되면 재앙이 초래될 수 있습니다. 그래서 몇 번 심호흡을 하고 잠시 생각한 후에 이 문제를 해결할 더 좋은 방법이 있어야 한다고 결정했습니다.

깨달음: 구조를 위한 자동화

프로그래머로서 저는 이런 단조로운 작업을 수행하는 스크립트를 작성해 보는 것이 어떨까 하는 생각이 들었습니다. 모든 단일 필드를 수동으로 확인하는 대신 프로세스를 자동화하고 정확성을 보장하는 동시에 정신을 차릴 수 있었습니다. 이제 Python의 강력한 기능을 활용할 때가 되었습니다.

개념은 간단했습니다.

JSON 파일에 필수 필드 목록이 저장되어 있어 스크립트의 재사용성과 적응성이 뛰어났습니다. 이 접근 방식을 사용하면 스크립트는 구조가 다른 XML 파일도 쉽게 처리할 수 있습니다. 새로운 XML 형식에 필요한 필드로 JSON 파일을 업데이트하기만 하면 스크립트가 수정 없이 다른 XML 스키마에 맞게 자동으로 조정될 수 있습니다.
각 XML 파일을 검토하고 필수 필드가 누락되었는지 확인한 다음 요약을 출력하는 Python 스크립트를 작성해야 했습니다.

이렇게 하면 각 파일에서 필드가 누락된 횟수, 속성이 몇 개나 있는지 쉽게 식별하고 명확한 보고서를 얻을 수 있었습니다. 더 이상 끝없는 수동 확인이나 실수가 없습니다. 제가 접근한 방법은 다음과 같습니다.

유틸리티 스크립트 작성

먼저 필수 필드 목록을 로드해야 했습니다. 이는 필수_필드 키 아래 JSON 파일에 저장되었으므로 이 파일을 읽는 함수를 작성했습니다.

import os
import json
import xml.etree.ElementTree as ET

def load_required_fields(json_file_path):
    with open(json_file_path, 'r') as file:
        data = json.load(file)
        return data.get("required_fields", [])

그러다가 진짜 마법이 찾아왔습니다. 각 XML 파일을 구문 분석하고 해당 속성을 반복하며 각 필수 필드가 있는지 확인하는 함수를 작성했습니다.

def check_missing_fields(file_path, required_fields):
    # Load the XML file
    tree = ET.parse(file_path)
    root = tree.getroot()

    # Initialize variables to store counts and track missing fields
    total_properties = 0
    missing_fields_counts = {field: 0 for field in required_fields}

    # Loop through each property to check for missing fields
    for property in root.findall('.//property'):
        total_properties  = 1
        for field in required_fields:
            # Use the find() method to look for direct children of the property element
            element = property.find(f'./{field}')
            # Check if the field is completely missing (not present)
            if element is None:
                missing_fields_counts[field]  = 1

    # Print the results
    print('-----------------------------------------')
    print(f'File: {os.path.basename(file_path)}')
    print(f'Total number of properties: {total_properties}')
    print('Number of properties missing each field:')
    for field, count in missing_fields_counts.items():
        print(f'  {field}: {count} properties')
    print('-----------------------------------------')

이 함수는 XML 파일을 로드하고 속성 수를 계산하며 각 필수 필드가 누락된 속성 수를 추적했습니다. 이 함수는 처리된 각 파일의 결과를 보여주는 보고서를 인쇄했습니다.

마지막으로 모든 것을 main() 함수에 모았습니다. 지정된 디렉터리의 모든 XML 파일을 반복하고 각 파일에 대해 필드 확인 기능을 실행합니다.

def main():
    # Directory containing XML files
    xml_dir = 'xmls'
    json_file_path = 'required_fields.json'

    # Load required fields from JSON file
    required_fields = load_required_fields(json_file_path)

    # Iterate over each file in the xmls directory
    for file_name in os.listdir(xml_dir):
        if file_name.endswith('.xml'):
            file_path = os.path.join(xml_dir, file_name)
            check_missing_fields(file_path, required_fields)

if __name__ == "__main__":
    main()

프로세스를 실행하면 다음과 유사한 결과 요약을 받게 됩니다.

File: properties.xml
Total number of properties: 4170
Number of properties missing each field:
  Title: 0 properties
  Unit_Number: 0 properties
  Type: 0 properties
  Bedrooms: 0 properties
  Bathrooms: 0 properties
  Project: 0 properties
  Price: 0 properties
  VAT: 0 properties
  Status: 10 properties
  Area: 0 properties
  Location: 100 properties
  Latitude: 30 properties
  Longitude: 0 properties
  Apartment_Floor: 0 properties
  Block: 0 properties
  Phase: 0 properties
  Construction_Stage: 0 properties
  Plot_Size: 0 properties
  Yard: 120 properties
  Description: 0 properties
  gallery: 27 properties

결과: 정신이 회복되었습니다

모든 것이 준비되면 XML 파일 디렉터리에서 스크립트를 실행했습니다. 출력은 정확히 제가 필요로 했던 것이었습니다. 각 파일에서 누락된 속성 수와 각 XML의 총 속성 수를 보여주는 간결한 요약입니다.

각 파일을 수동으로 확인하는 데 몇 시간을 소비하는 대신 몇 초 만에 답변을 얻었습니다. 스크립트는 수동 경로를 계속 진행했다면 간과했을 수 있는 몇 가지 누락된 필드를 포착했습니다.

배운 교훈

자동화는 생명의 은인입니다: 반복적인 작업에 직면할 때마다 이를 자동화할 수 있는 방법을 생각해 보세요. 시간을 절약할 뿐만 아니라 인적 오류의 위험도 줄여줍니다.
정확성이 중요합니다: 이와 같은 상황에서는 정확성이 가장 중요합니다. 제가 작성한 것과 같은 간단한 스크립트를 사용하면 어떤 것도 간과하지 않을 수 있으며 이는 중요한 데이터를 다룰 때 특히 중요합니다.
프로그래밍 기술 활용: 때때로 우리는 삶을 더 쉽게 만들어 주는 기술이 있음에도 불구하고 수동으로 작업하는 데 얽매일 때가 있습니다. 잠시 한발 물러나 스스로에게 "이 작업을 수행하는 더 효율적인 방법이 없을까?"라고 자문해 보세요.

결국, 지루하고 오류가 발생하기 쉬운 작업으로 시작된 작업이 보람 있는 경험으로 바뀌었습니다. 이제는 지루하거나 실수하기 쉬운 작업을 수행할 때마다 스크립팅과 자동화의 힘을 상기하게 됩니다. 다음에는 얼마나 많은 작업을 간소화할 수 있을지 궁금합니다…

내가 만든 XML Checker 저장소를 복제하면 이 자동화를 빠르게 시작할 수 있습니다. 그러면 스크립트와 예제 파일을 포함하여 필요한 모든 것이 제공됩니다. 여기에서 자동화를 직접 실행하고 필요에 맞게 사용자 정의하거나 기능을 더욱 확장할 수 있습니다.

즐기다!

릴리스 선언문 이 기사는 https://dev.to/rafaelogic/the-day-i-automated-xml-field-checking-with-python-59ja?1에 복제되어 있습니다. 침해가 있는 경우에는 [email protected]으로 문의하시기 바랍니다. 그것을 삭제하려면

최신 튜토리얼 더>

Python에서 Selenium WebDriver를 사용하여 텍스트를 추출하는 방법은 무엇입니까?
Python에서 Selenium WebDriver를 사용하여 텍스트를 캡처하는 방법이 문제는 getText( ) 매개변수가 전달된 메소드입니다. 이 문제를 해결하려면 대신 .text를 사용하세요. 검색 프로세스 중에 예상 텍스트를 전달하려고 시도하기보다는 텍스트를 얻은...

프로그램 작성 2024-11-07에 게시됨
웹 프로그래밍 세계로의 첫 걸음: HTML과 CSS
여러분, 안녕하세요! 며칠 전 나는 도약하여 프로그래밍을 배우기 시작하기로 결정했습니다. 많은 사람들처럼 저도 기본인 HTML과 CSS부터 시작했습니다. 40분짜리 짧은 과정(deivchoi에서 처음부터 기본 HTML5 및 CSS3 과정)을 시작하세요. 처음에는 모든 ...

프로그램 작성 2024-11-07에 게시됨
Java에서 JButton용 액션 리스너를 만드는 방법은 무엇입니까?
Java에서 JButton용 액션 리스너 생성Java에서 그래픽 사용자 인터페이스(GUI)를 개발할 때 버튼에 액션 리스너를 추가하면 다음을 수행할 수 있습니다. 사용자 클릭에 응답하고 프로그램 내에서 특정 작업을 실행합니다. 다음은 두 가지 방법을 사용하여 이 기능을...

프로그램 작성 2024-11-07에 게시됨
콘텐츠 크기에 관계없이 CSS가 표 셀 너비를 제어할 수 있나요?
CSS로 표 셀 너비 제어HTML 표 영역에서는 다양한 크기의 콘텐츠를 처리할 때 표 셀의 너비를 균일하게 유지하는 것이 어려울 수 있습니다. 관련된 셀 수에 관계없이 CSS를 통해서만 원하는 결과를 얻을 수 있습니까?HTML 구조는 간단합니다. 상위 는 테이블 컨테이...

프로그램 작성 2024-11-07에 게시됨
Java를 C++ 애플리케이션에 통합하는 방법: Java 코드를 즉시 실행할 수 있습니까?
Java를 C 애플리케이션에 통합C 애플리케이션의 기능을 확장하려면 Java 구성 요소를 통합하는 것이 바람직할 수 있습니다. 이는 Python을 통해 달성되었지만 Java 통합에 대한 명확한 솔루션은 없었던 것 같습니다.C의 JNI 및 Java 클래스 사용 Java ...

프로그램 작성 2024-11-07에 게시됨
PHP에서 MySQL 결과 배열을 JSON으로 변환하는 방법은 무엇입니까?
MySQL 결과 배열을 JSON으로 변환PHP에서는 json_encode()를 사용하여 MySQL 결과 배열을 JSON 형식으로 쉽게 변환할 수 있습니다. 이 함수는 PHP 버전 5.2.0 이상에서 사용할 수 있습니다.PHP 결과 배열 $row를 JSON으로 변환하려면...

프로그램 작성 2024-11-07에 게시됨
$C++에서 Null에 대해 \"this\"를 확인해야 합니까?$
C++에서 Null에 대해 \"this\"를 확인해야 합니까?
Null에 대해 "this" 확인의 유용성프로그래밍에서 "this" 포인터는 멤버 함수 내의 현재 개체 인스턴스를 참조합니다. 이를 통해 함수가 객체의 데이터와 메서드에 액세스할 수 있습니다. 그러나 질문이 생깁니다. "th...

프로그램 작성 2024-11-07에 게시됨
귀하의 기사에 적합한 몇 가지 질문 기반 제목은 다음과 같습니다. * PHP에서 dd/mm/yyyy를 yyyy-mm-dd로 변환하는 방법: 간단한 가이드 * PHP 날짜 형식 변환: dd/mm/yyyy에서 yyyy-mm-dd로 - 최선의 접근 방식
PHP 날짜 형식 변환: dd/mm/yyyy에서 yyyy-mm-dddd/mm/yyyy와 사이의 날짜 형식 변환 yyyy-mm-dd는 PHP에서 어려울 수 있습니다.문제:주요 문제는 dd/mm/yyyy 형식의 날짜로 작업할 때 발생합니다. 슬래시 구분 기호(/)로 인한 ...

프로그램 작성 2024-11-07에 게시됨
Go 함수의 포인터 수정이 때때로 원래 값에 영향을 미치지 않는 이유는 무엇입니까?
Go의 포인터 수정, 차이점 이해Go에서는 포인터를 함수에 전달할 때 일반적으로 값을 수정하려고 합니다. 해당 포인터로 가리킨다. 일반적으로 이는 다음 코드에 설명된 것처럼 역참조를 통해 달성할 수 있습니다.type Test struct { Value int }...

프로그램 작성 2024-11-07에 게시됨
주간 빌딩 인터랙티브 게임
2주차: 대화형 게임 구축 클래스 3: 게임 물리 및 움직임 3.1 게임 물리학의 이해 게임 물리학에는 실제 세계의 물리학을 시뮬레이션하여 게임을 더욱 현실적이고 매력적으로 만드는 작업이 포함됩니다. 속도, 가속도, 중력과 ...

프로그램 작성 2024-11-07에 게시됨
Python의 HTML 테이블에서 데이터를 추출하는 데 BeautifulSoup을 어떻게 사용할 수 있나요?
BeautifulSoup 구문 분석 테이블Python에서 BeautifulSoup는 HTML 문서를 구문 분석하는 강력한 방법을 제공합니다. 테이블에서 특정 데이터를 검색해야 하는 이와 같은 시나리오에 직면했을 때 BeautifulSoup가 유용합니다.타겟팅된 광고 항...

프로그램 작성 2024-11-07에 게시됨
반응에서 타사 통합을 위해 PKCE로 oAuth를 구현하는 방법
타사 통합을 위해 oAuth를 구현하는 동안 꽤 오랫동안 업데이트되지 않은 일부 정보를 우연히 발견했습니다. 여기에서는 내 경험과 그것이 어떻게 작동하는지 포착하려고 노력하고 있습니다. 참고: 이 문서에서는 oAuth 및 작동 방식에 대해 자세히 설명하지 않습니다. ...

프로그램 작성 2024-11-07에 게시됨
POST Jersey 요청에서 지원되지 않는 미디어 유형 오류가 발생하는 이유는 무엇입니까?
POST Jersey 요청에서 지원되지 않는 미디어 유형 오류HTTP 상태 코드 415가 발생하는 경우 - Jersey에 대한 POST 요청에서 지원되지 않는 미디어 유형 REST 서비스에서 문제는 일반적으로 Jersey 배포판에 JSON/POJO 지원이 누락되어 있습...

프로그램 작성 2024-11-07에 게시됨
XSS에 대한 일반적인 방어책은 무엇입니까?
XSS에 대한 일반적인 방어입력 및 출력 삭제는 XSS(교차 사이트 스크립팅) 공격을 방지하는 데 중요한 기술입니다. 이 문서에서는 이러한 위협을 완화하기 위해 업계 및 개인 웹사이트에서 널리 채택되는 방법을 살펴봅니다.1. HTML 이스케이프:모든 사용자 입력을 HT...

프로그램 작성 2024-11-07에 게시됨
Python 가비지 수집기는 메모리를 어떻게 자동으로 관리합니까?
Python 가비지 수집기 문서Python 가비지 수집기는 프로그램에서 더 이상 사용하지 않는 메모리를 자동으로 해제하는 메모리 관리 시스템입니다. . 이는 메모리 누수를 방지하고 프로그램의 메모리 부족을 방지하여 성능을 향상시키는 데 도움이 됩니다.가비지 수집기는 2...

프로그램 작성 2024-11-07에 게시됨