Pandas DataFrame GroupBy Multi Columns for Value Counts
في معالجة DataFrame مع Pandas، يمكن أن يوفر تجميع البيانات حسب أعمدة متعددة رؤى قيمة. توضح هذه المقالة كيفية حساب الملاحظات أثناء التجميع حسب عمودين، بالإضافة إلى تحديد أعلى عدد لكل مجموعة.
بالنظر إلى DataFrame الذي يحتوي على أعمدة متعددة، فمن الممكن تطبيق وظيفة "groupby" على بيانات المجموعة بناء على أعمدة محددة. هنا، لدينا DataFrame اسمه 'df' مع خمسة أعمدة: 'col1'، 'col2'، 'col3'، 'col4'، و'col5'.
import pandas as pd
df = pd.DataFrame([
[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3],
list('AAABBBBABCBDDD'),
[1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8],
['x/y/z','x/y','x/y/z/n','x/u','x','x/u/v','x/y/z','x','x/u/v/b','-','x/y','x/y/z','x','x/u/v/w'],
['1','3','3','2','4','2','5','3','6','3','5','1','1','1']
]).T
df.columns = ['col1','col2','col3','col4','col5']
العد حسب مجموعات الصفوف
لعد عدد الملاحظات في كل مجموعة صفوف، استخدم وظيفة "groupby" على الأعمدة المرغوبة ثم قم بتطبيق وظيفة "الحجم".result = df.groupby(['col5', 'col2']).size()
سيؤدي ذلك إلى إنتاج DataFrame مع الأعمدة المجمعة كمؤشر والحجم كقيم.print(result)
تحديد أعلى عدد
لتحديد الحد الأقصى لعدد كل قيمة 'col2'، استخدم وظيفة 'groupby' في 'col2' ثم قم بتطبيق وظيفة 'max' على البيانات المجمعة .result = df.groupby(['col5', 'col2']).size().groupby(level=1).max()
هذا سوف ينتج سلسلة ذات الحد الأقصى لعدد كل قيمة "col2".
print(result)
باختصار، استخدام وظائف "groupby" و "size" في Pandas يسمح بكفاءة تحليل وتجميع البيانات، مما يمكّن المستخدمين من استخلاص رؤى حول بياناتهم بطرق مختلفة. تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.
Copyright© 2022 湘ICP备2022001581号-3