"إذا أراد العامل أن يؤدي عمله بشكل جيد، فعليه أولاً أن يشحذ أدواته." - كونفوشيوس، "مختارات كونفوشيوس. لو لينجونج"
الصفحة الأمامية > برمجة > مجموعة بيانات منتج أمازون

مجموعة بيانات منتج أمازون

تم النشر بتاريخ 2024-08-29
تصفح:254

مرحبًا، لقد وجدت مجموعة بيانات لمنتجات أمازون في Kaggle وقررت إيجاد علاقة بين السعر وتصنيف النجوم.

الكود الكامل في :
https://github.com/victordalet/Kaggle_analogy/tree/feat/amazon_products


ط- تحضير البيانات

للقيام بذلك، أستخدم SQLAlchemy لتحويل ملف CSV إلى قاعدة بيانات صغيرة، وعرض المعلومات بشكل مخطط.

pip install SQLAlchemy
pip install plotly

في السكربت التالي، أقوم باستخراج البيانات والحصول على:

  • النسبة بين السعر وعدد النجوم
  • التقييم النهائي وعدد النجوم
  • السعر وعدد النجوم
import pandas as pd
from sqlalchemy import create_engine, text
import plotly.express as px


class Main:
    def __init__(self):
        self.result = None
        self.connection = None

        self.engine = create_engine("sqlite:///my_database.db", echo=False)
        self.df = pd.read_csv("amazon_product.csv")
        self.df.to_sql("products", self.engine, index=False, if_exists="append")

        self.get_data()
        self.transform_data()
        self.display_graph()
        self.get_data_number_start_and_price()
        self.transform_data()
        self.display_graph()
        self.get_data_number_start_and_start()
        self.display_graph()

    def get_data(self):
        self.connection = self.engine.connect()
        query = text(
            "SELECT product_price, product_star_rating FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()

    def get_data_number_start_and_price(self):
        query = text(
            "SELECT product_price, product_num_ratings FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()

    def get_data_number_start_and_start(self):
        query = text(
            "SELECT product_star_rating, product_num_ratings FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()
        for i in range(len(self.result)):
            self.result[i] = [self.result[i][0], self.result[i][1]]

    def transform_data(self):
        for i in range(len(self.result)):
            self.result[i] = [float(self.result[i][0].split("$")[1]), self.result[i][1]]

    def display_graph(self):
        fig = px.scatter(
            self.result, x=0, y=1, title="Amazon Product Price vs Star Rating"
        )
        fig.show()


Main()

ثانيا - النتيجة

السعر والتدوين

Amazon product dataset

السعر وعدد التدوين

Amazon product dataset

التدوين وعدد الآراء

Amazon product dataset

ثالثا - الاستنتاج

يمكننا أن نرى أنه ليس هناك بالضرورة علاقة بين السعر والتقييم، ولكن كلما ارتفع السعر، انخفض التقييم، وكلما زاد عدد المراجعات، ارتفع التقييم.
وهو ما يبدو منطقيًا، لأنه إذا تم شراء المنتج كثيرًا، فهذا يعني أنه يحظى بشعبية كبيرة.

بيان الافراج تم إعادة إنتاج هذه المقالة على: https://dev.to/victordalet/amazon-product-dataset-h00?1 إذا كان هناك أي انتهاك، فيرجى الاتصال بـ [email protected] لحذفه
أحدث البرنامج التعليمي أكثر>

تنصل: جميع الموارد المقدمة هي جزئيًا من الإنترنت. إذا كان هناك أي انتهاك لحقوق الطبع والنشر الخاصة بك أو الحقوق والمصالح الأخرى، فيرجى توضيح الأسباب التفصيلية وتقديم دليل على حقوق الطبع والنشر أو الحقوق والمصالح ثم إرسالها إلى البريد الإلكتروني: [email protected]. سوف نتعامل مع الأمر لك في أقرب وقت ممكن.

Copyright© 2022 湘ICP备2022001581号-3