「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > 複数の条件で Pandas DataFrame またはシリーズを効率的にフィルタリングする方法は?

複数の条件で Pandas DataFrame またはシリーズを効率的にフィルタリングする方法は?

2024 年 11 月 1 日に公開
ブラウズ:940

How to Efficiently Filter Pandas DataFrame or Series with Multiple Conditions?

複数の条件で Pandas データフレームまたはシリーズを効率的にフィルタリングする

Pandas には、reindex()、apply()、map() など、データをフィルタリングするためのメソッドが多数用意されています。 。ただし、複数のフィルタを適用する場合、効率が問題になります。

フィルタリングを最適化するには、ブール型インデックスの利用を検討してください。 Pandas と Numpy は両方とも、不必要なコピーを作成せずに基になるデータ配列を直接操作するブール型インデックス付けをサポートしています。

ブール型インデックス付けの例は次のとおりです:

df.loc[df['col1'] >= 1, 'col1']

この式は、列 'col1' の値が 1 以上である行のみを含む Pandas シリーズを返します。

To複数のフィルターを適用するには、論理演算子「&」(AND) および「|」を使用します。 (または)。例:

df[(df['col1'] >= 1) & (df['col1'] <=1 )]

この式は、列 'col1' の値が 1 から 1 までの範囲にある行のみを含む DataFrame を返します。

Forヘルパー関数の場合は、DataFrame を受け取り、Boolean Series を返す関数を定義することを検討してください。これにより、論理演算子を使用して複数のフィルターを組み合わせることができます。

def b(x, col, op, n):
    return op(x[col],n)

def f(x, *b):
    return x[(np.logical_and(*b))]

Pandas 0.13 では、複雑なフィルター条件を表現するより効率的な方法を提供する query() メソッドが導入されました。有効な列識別子を想定して、次のコードは複数の条件に基づいて DataFrame df をフィルターします:

df.query('col1 <= 1 & 1 <= col1')

要約すると、ブール インデックスは、不要なコピーを作成せずに複数のフィルターを Pandas DataFrame または Series に適用する効率的な方法を提供します。論理演算子とヘルパー関数を使用して、複数のフィルターを組み合わせて機能を拡張します。

リリースステートメント この記事は次の場所に転載されています: 1729394837 侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3