In der Datenanalyse ist es häufig nützlich, Daten in Kategorien zu binden, um seine Darstellung und Analyse zu vereinfachen. Dies ist eine häufige Technik bei der Arbeit mit numerischen Daten, beispielsweise beim Umgang mit Prozentsätzen.
Angenommen, wir haben eine Datenrahmenspalte mit dem Namen "Prozentsatz", die numerische Werte enthält, wie unten gezeigt:
df['percentage'].head() 46.5 44.2 100.0 42.12
, um diese Spalte zu binden und die Wertzahlen für jeden Bin zu erhalten, können wir die Pd.cut -Funktion verwenden. Hier sind zwei Möglichkeiten, dies zu erreichen:
Verwenden Sie Pd.cut mit Value_Counts:
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins) print(df.groupby(df['binned']).size())
verwendete np.searchsorted und GroupBy:
df['binned'] = np.searchsorted(bins, df['percentage'].values) print(df.groupby(df['binned']).size())
Beide Methoden geben die folgende Ausgabe zurück:
percentage (0, 1] 0 (1, 5] 0 (5, 10] 0 (10, 25] 0 (25, 50] 3 (50, 100] 1 dtype: int64
Diese Ausgabe gibt an, dass es in den Behältern keine Werte gibt (0, 1], (1, 5], (5, 10] und (10, 25]. Drei Werte fallen in die bin (25, 50] und ein Wert fällt in den Bin (50, 100].
Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.
Copyright© 2022 湘ICP备2022001581号-3