Python で XML フィールド チェックを自動化した日

表紙 > プログラミング > Python で XML フィールドチェックを自動化した日

Python で XML フィールドチェックを自動化した日

2024 年 8 月 27 日に公開

ブラウズ：797

The Day I Automated XML Field Checking with Python

すべては、欠落しているフィールドがないか複数の XML ファイルをチェックするタスクを私に与えられたときに始まりました。チームは、次のステップに進む前に、すべての必須フィールドがこれらのファイルに存在することを確認する必要がありました。とても簡単そうに思えますよね?そうですね、完全ではありません。

最初の XML ファイルを開いてプロパティを調べ、必要なフィールドを手動で探して、ボックスにチェックを入れました。ご想像のとおり、すぐに疲れてしまいました。 1 つのファイルを数分見ただけで、私の目は曇り、何か重要なことを見逃していないかどうか本当に自信がありませんでした。つまり、XML は非常に扱いにくいため、フィールドが 1 つ欠けていると、将来的に大きな問題が発生する可能性があります。

まだ処理しなければならないファイルがたくさんあると知って、ひりひりするような恐怖を感じました。そして、もちろん、精度は非常に重要であり、フィールドが 1 つ見落とされていると、大惨事が発生する可能性があります。そこで、数回深呼吸して少し考えた後、これに取り組むもっと良い方法があるはずだと判断しました。

啓示: 自動化が救いになる

プログラマーである私は、この単調な作業を行うためのスクリプトを書いてみてはどうかというアイデアを思いつきました。すべてのフィールドを手動でチェックする代わりに、プロセスを自動化し、正気を保ったまま正確性を保証できます。 Python の力を活用する時が来ました。

コンセプトはシンプルでした:

必須フィールドのリストを JSON ファイルに保存していたので、スクリプトの再利用性と適応性が高くなりました。このアプローチを使用すると、スクリプトは、構造が異なる場合でも、他の XML ファイルを簡単に処理できます。新しい XML 形式に必要なフィールドを使用して JSON ファイルを更新するだけで、スクリプトを変更せずにさまざまな XML スキーマに自動的に調整できるようになります。
各 XML ファイルを調べて、必須フィールドが不足していないかどうかを確認し、概要を出力する Python スクリプトを作成する必要がありました。

このようにして、各ファイルでフィールドが欠落している回数、存在するプロパティの数を簡単に特定し、明確なレポートを取得することができます。終わりのない手動チェックや間違いはもう必要ありません。これが私がそれにアプローチした方法です。

ユーティリティスクリプトの作成

まず最初に、必須フィールドのリストをロードする必要がありました。これらは、required_fields キーの下の JSON ファイルに保存されていたため、このファイルを読み取る関数を作成しました:

import os
import json
import xml.etree.ElementTree as ET

def load_required_fields(json_file_path):
    with open(json_file_path, 'r') as file:
        data = json.load(file)
        return data.get("required_fields", [])

そして、本当の魔法が始まりました。各 XML ファイルを解析し、そのプロパティをループして、各必須フィールドの存在を確認する関数を作成しました。

def check_missing_fields(file_path, required_fields):
    # Load the XML file
    tree = ET.parse(file_path)
    root = tree.getroot()

    # Initialize variables to store counts and track missing fields
    total_properties = 0
    missing_fields_counts = {field: 0 for field in required_fields}

    # Loop through each property to check for missing fields
    for property in root.findall('.//property'):
        total_properties  = 1
        for field in required_fields:
            # Use the find() method to look for direct children of the property element
            element = property.find(f'./{field}')
            # Check if the field is completely missing (not present)
            if element is None:
                missing_fields_counts[field]  = 1

    # Print the results
    print('-----------------------------------------')
    print(f'File: {os.path.basename(file_path)}')
    print(f'Total number of properties: {total_properties}')
    print('Number of properties missing each field:')
    for field, count in missing_fields_counts.items():
        print(f'  {field}: {count} properties')
    print('-----------------------------------------')

この関数は、XML ファイルをロードし、プロパティの数を数え、各必須フィールドが欠落しているプロパティの数を追跡しました。この関数は、処理された各ファイルの結果を示すレポートを出力します。

最後に、main() 関数にすべてをまとめます。指定されたディレクトリ内のすべての XML ファイルを反復処理し、それぞれのファイルに対してフィールドチェック関数を実行します。

def main():
    # Directory containing XML files
    xml_dir = 'xmls'
    json_file_path = 'required_fields.json'

    # Load required fields from JSON file
    required_fields = load_required_fields(json_file_path)

    # Iterate over each file in the xmls directory
    for file_name in os.listdir(xml_dir):
        if file_name.endswith('.xml'):
            file_path = os.path.join(xml_dir, file_name)
            check_missing_fields(file_path, required_fields)

if __name__ == "__main__":
    main()

プロセスを実行すると、次のような結果の概要が表示されます:

File: properties.xml
Total number of properties: 4170
Number of properties missing each field:
  Title: 0 properties
  Unit_Number: 0 properties
  Type: 0 properties
  Bedrooms: 0 properties
  Bathrooms: 0 properties
  Project: 0 properties
  Price: 0 properties
  VAT: 0 properties
  Status: 10 properties
  Area: 0 properties
  Location: 100 properties
  Latitude: 30 properties
  Longitude: 0 properties
  Apartment_Floor: 0 properties
  Block: 0 properties
  Phase: 0 properties
  Construction_Stage: 0 properties
  Plot_Size: 0 properties
  Yard: 120 properties
  Description: 0 properties
  gallery: 27 properties

結果: 正気度は保たれました

すべてを準備したら、XML ファイルのディレクトリでスクリプトを実行しました。出力はまさに私が必要としていたものでした。各ファイル内のどのフィールドが欠落しているプロパティの数と、各 XML 内のプロパティの総数を示す簡潔な概要です。

各ファイルを手動でチェックするのに何時間も費やす代わりに、数秒で答えが得られました。スクリプトは、手動ルートを続けていたら見落としていたかもしれないいくつかの欠落フィールドを検出しました。

学んだ教訓

自動化は救世主です: 繰り返しのタスクに直面したときは、それを自動化する方法を考えてください。時間を節約できるだけでなく、人的ミスのリスクも軽減します。
正確さが重要: このような状況では、正確さが最も重要です。私が書いたような単純なスクリプトを使用すると、何も見落とさないことが保証されます。これは、重要なデータを扱う場合に特に重要です。
プログラミングスキルを活用する: 作業を楽にするスキルを持っていても、手動で何かを行うことに夢中になってしまうことがあります。少し立ち止まって、「もっと効率的な方法はないだろうか？」と自問してみてください。

結局、面倒でエラーが発生しやすい作業として始まった作業が、やりがいのある経験に変わりました。今では、退屈なタスクや間違いを起こしやすいタスクを受け取るたびに、スクリプト作成と自動化の力を思い出します。次に他にどれだけのタスクを効率化できるだろうか…

作成した XML チェッカーリポジトリのクローンを作成することで、この自動化をすぐに開始できます。これにより、スクリプトやサンプルファイルなど、必要なものがすべて提供されます。そこから、自動化を自分で実行したり、ニーズに合わせてカスタマイズしたり、機能をさらに拡張したりすることができます。

楽しむ！

リリースステートメントこの記事は次の場所に転載されています: https://dev.to/rafaelogic/the-day-i-automated-xml-field-checking-with-python-59ja?1 侵害がある場合は、[email protected] までご連絡ください。それを削除するには

最新のチュートリアルもっと>

GraalVM ネイティブイメージのメモリ管理
メモリ管理はコンピュータソフトウェア開発の重要なコンポーネントであり、アプリケーションでのメモリの効果的な割り当て、利用、解放を担当します。その重要性は、ソフトウェアのパフォーマンスを向上させ、システムの安定性を確保することにあります。ガベージコレクションガベージコレクション...

プログラミング 2024 年 11 月 7 日に公開
## C++ で関数パラメータとして参照を使用する必要があるのはどのような場合ですか?
C での引数の受け渡し : 参照の理解C では、関数パラメータの動作はその型によって決まります。重要な違いの 1 つは、「値による受け渡し」と「参照による受け渡し」です。関数パラメーターで参照を使用する理由参照は、次の 2 つの関数パラメーターで使用されます。主な理由:引数を変更するには: 参照によ...

プログラミング 2024 年 11 月 7 日に公開
「getaddrinfo に失敗しました」が発生する理由と修正方法を教えてください。
「getaddrinfo に失敗しました」エラーの調査「getaddrinfo に失敗しました」エラーは、ホスト名が変換される名前解決のプロセス中に発生します。 IPアドレスに変換します。これは、提供されたホスト名の解決に問題があることを示唆しています。エラーコンテキストの詳細提供されたエラート...

プログラミング 2024 年 11 月 7 日に公開
単一のコマンドラインで複数行のコマンドを実行するにはどうすればよいですか?
1 行のコマンドラインで複数行のステートメントを実行する方法Python の -c オプションを使用して単一行ループを実行する場合、ループの前にモジュールをインポートすると構文エラーが発生します。これは、Python インタープリターがコードブロックを 1 つのステートメントとして扱うためです。...

プログラミング 2024 年 11 月 7 日に公開
PHP で MySQL から MySQLi に移行するにはどうすればよいですか?
MySQL から MySQLi への移行Web サイトを MySQL から MySQLi に移行するには、PHP コードの変更が必要ですが、データベース自体はほとんど影響を受けません。。 MySQL 拡張機能の改良版である MySQLi は、強化された機能とセキュリティを提供します。PHP コード...

プログラミング 2024 年 11 月 7 日に公開
CSS で背景と子要素に異なる不透明度を実現するにはどうすればよいですか?
CSS 背景の不透明度についてCSS では、不透明度は要素の透明度を制御します。コンテナに適用すると、当然、背景とその子要素の両方に影響します。継承の問題背景と子要素で異なる不透明度を実現するには、 CSS の継承には課題があります。子要素は親コンテナから不透明度を継承するため、この例では背景とテキ...

プログラミング 2024 年 11 月 7 日に公開
[個人ウェブサイト] Next で Notion データベースを統合する方法
To integrate a Notion database into a Next.js project, you can use Notion as a content management system (CMS) and display its content on your website...

プログラミング 2024 年 11 月 7 日に公開
Ubuntu 12.04 で PhpMyAdmin が「MySQLi Extension Missing」エラーを引き起こすのはなぜですか?
PhpMyAdmin エラー: MySQLi 拡張機能が見つかりませんUbuntu 12.04 の PhpMyAdmin で問題が発生していますか? Apache2、PHP5、MySQL、および PhpMyAdmin をインストールしたにもかかわらず、「mysqli 拡張機能が見つかりません」エラー...

プログラミング 2024 年 11 月 7 日に公開
java.net.URLConnection を使用してファイルと追加パラメータを HTTP サーバーにアップロードするにはどうすればよいですか?
Java の追加パラメータを使用した HTTP サーバーへのファイルのアップロードHTTP サーバーへのファイルのアップロードは、多くのアプリケーションで一般的に必要です。ただし、場合によっては、ファイルと一緒に追加のパラメーターを渡すことも必要になります。外部ライブラリを使用せずにファイルとパラメ...

プログラミング 2024 年 11 月 7 日に公開
PHP でテキストファイルを 1 行ずつ読み取って処理するにはどうすればよいですか?
PHP でのテキストファイルの読み取り: ステップバイステップガイド多くの Web 開発シナリオでは、テキストファイルからのデータの読み取りが必要になります。 PHP では、ファイル処理関数により、プレーンテキストファイルを 1 行ずつ読み取る便利な方法が提供されます。 PHP を使用して...

プログラミング 2024 年 11 月 7 日に公開
これなしでは生きていけない生産性ツール (ボーナス)
皆さん、あなたのボーイ Nomadev が別の投稿で戻ってきました!今日は、私が毎日使用している非常にクールな AI ツールをいくつか共有できることを嬉しく思います。これらのツールは私の日常生活の重要な部分となっており、整理整頓と効率性を維持し、より多くのことを成し遂げるのに役立ちます。今日のペー...

プログラミング 2024 年 11 月 7 日に公開
Go/Templ でクリーンでフレンドリーなスピナーを作成する
役に立たない HTML 皆さんは、一貫性があり、クリーンでプロフェッショナルなスピンボックスを HTML で作成するのは簡単なことだと思うかもしれません...しかし、残念なことに、入力に整数値または 10 進数値のみを受け入れるように指示する標準属性がありません。、すべての入力フ...

プログラミング 2024 年 11 月 7 日に公開
DB 接続なしでデータベースセキュリティのために文字列をエスケープできますか?
DB 接続を使用しないデータベースセキュリティのための文字列のエスケープデータベースと対話するコードをテストする場合は、ユーザー入力を適切にエスケープすることで SQL インジェクション攻撃を防ぐことが重要です。ただし、テストのたびにデータベースに接続するのは非効率となる可能性があります。アクティ...

プログラミング 2024 年 11 月 7 日に公開
Entropix: 推論パフォーマンスを最大化するためのサンプリング手法
Entropix: 推論パフォーマンスを最大化するためのサンプリング手法 Entropix README によると、Entropix はエントロピーベースのサンプリング方法を使用しています。この記事では、エントロピーとヴァレントロピーに基づく具体的なサンプリング手法について説明し...

プログラミング 2024 年 11 月 7 日に公開
重複するメソッドはポリモーフィズムをサポートします
メソッドオーバーライド: これは単なる名前の問題ではなく、Java の基本的な機能です。動的メソッドディスパッチの概念に基づいています。動的メソッドディスパッチ: 重複するメソッドの呼び出しがコンパイル時ではなく実行時に解決されるメカニズムです。 Java でのポリモーフィズムの実装を許可します...

プログラミング 2024 年 11 月 7 日に公開