「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > ウェブサイトの時刻データセット

ウェブサイトの時刻データセット

2024 年 11 月 7 日に公開
ブラウズ:940

こんにちは、kaggle でウェブサイトの使用時間のデータセットを見つけたので、訪問したページ数とウェブサイトの総滞在時間の比率を調べたいと思っています。

データセットとコードは私の github で見つけることができます: https://github.com/victordalet/Kaggle_analysis/tree/feat/website_traffic


I - インストール

これを行うには、Python で sqlalchemy を使用して csv をデータベースに変換し、結果をプロットして表示します。

pip install plotly
pip install sqlalchemy

II - コード

Main クラスを作成します。このクラスでは、get_data メソッドを使用して CSV を取得し、データベースに格納します。
結果はタプルのリストなので、二重リストを取得するためにtransform_dataメソッドを作成します。
最後に、閲覧したページ数と合計時間の単純なグラフを表示できます。

import pandas as pd
from sqlalchemy import create_engine, text
import plotly.express as px


class Main:
    def __init__(self):
        self.result = None
        self.connection = None

        self.engine = create_engine("sqlite:///my_database.db", echo=False)
        self.df = pd.read_csv("website_wata.csv")
        self.df.to_sql("website_data", self.engine, index=False, if_exists="append")
        self.get_data()
        self.transform_data()
        self.display_graph()


    def get_data(self):
        self.connection = self.engine.connect()
        query = text("SELECT Page_Views, Time_on_Page FROM website_data")
        self.result = self.connection.execute(query).fetchall()

    def transform_data(self):
        for i in range(len(self.result)):
            self.result[i] = list(self.result[i])


    def display_graph(self):
        fig = px.scatter(
            self.result, x=0, y=1, title=""
        )
        fig.show()


Main()

III - 結果

X 軸はユーザーが訪問したページ数を示し、Y 軸は Web サイトで費やした時間を分単位で示します。

最も長く滞在するユーザーは 4 ページから 6 ページの間に訪問し、11 ページから 15 ページの間にはすべてのユーザーが少なくとも数分間滞在していることがわかります。

Website Time dataset

リリースステートメント この記事は次の場所に転載されています: https://dev.to/victordalet/website-time-dataset-3k47?1 侵害がある場合は、[email protected] に連絡して削除してください。
最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3