「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > Amazonの商品データセット

Amazonの商品データセット

2024 年 8 月 29 日に公開
ブラウズ:567

こんにちは、Kaggle で Amazon 製品のデータセットを見つけたので、価格と星の評価の関係を見つけることにしました。

完全なコード:
https://github.com/victordalet/Kaggle_analysis/tree/feat/amazon_products


I - データの準備

これを行うには、SQLAlchemy を使用して csv ファイルを小さなデータベースに変換し、情報をプロットして表示します。

pip install SQLAlchemy
pip install plotly

次のスクリプトでは、データを抽出して次を取得します:

  • 価格と星の数の比率
  • 最終評価と星の数
  • 価格と星の数
import pandas as pd
from sqlalchemy import create_engine, text
import plotly.express as px


class Main:
    def __init__(self):
        self.result = None
        self.connection = None

        self.engine = create_engine("sqlite:///my_database.db", echo=False)
        self.df = pd.read_csv("amazon_product.csv")
        self.df.to_sql("products", self.engine, index=False, if_exists="append")

        self.get_data()
        self.transform_data()
        self.display_graph()
        self.get_data_number_start_and_price()
        self.transform_data()
        self.display_graph()
        self.get_data_number_start_and_start()
        self.display_graph()

    def get_data(self):
        self.connection = self.engine.connect()
        query = text(
            "SELECT product_price, product_star_rating FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()

    def get_data_number_start_and_price(self):
        query = text(
            "SELECT product_price, product_num_ratings FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()

    def get_data_number_start_and_start(self):
        query = text(
            "SELECT product_star_rating, product_num_ratings FROM products where product_price != '$0.00'"
        )
        self.result = self.connection.execute(query).fetchall()
        for i in range(len(self.result)):
            self.result[i] = [self.result[i][0], self.result[i][1]]

    def transform_data(self):
        for i in range(len(self.result)):
            self.result[i] = [float(self.result[i][0].split("$")[1]), self.result[i][1]]

    def display_graph(self):
        fig = px.scatter(
            self.result, x=0, y=1, title="Amazon Product Price vs Star Rating"
        )
        fig.show()


Main()

II - 結果

価格と表記

Amazon product dataset

価格と表記数

Amazon product dataset

表記と意見数

Amazon product dataset

III - 結論

価格と評価の間には必ずしも関係があるわけではありませんが、価格が高いほど評価は低くなり、レビューが多いほど評価は高くなります。
製品がたくさん購入されるということは、その製品が人気があることを意味するため、これは論理的であるように思えます。

リリースステートメント この記事は次の場所に転載されています: https://dev.to/victordalet/amazon-product-dataset-h00?1 侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3