您好,我在kaggle上发现了一个网站使用时间的数据集,所以我想找到访问页面数与网站总时间之间的比率。
您可以在我的github中找到数据集和代码:https://github.com/victordalet/Kaggle_analysis/tree/feat/website_traffic
为此,我在 python 中使用 sqlalchemy 将 csv 转换为数据库,并以绘图方式显示我的结果。
pip install plotly pip install sqlalchemy
我创建一个 Main 类,在其中使用 get_data 方法检索 csv 并将其放入数据库中。
结果是一个元组列表,因此我创建了transform_data方法来获取双列表。
最后,我可以显示查看的页面数和总时间之间的简单图表。
import pandas as pd from sqlalchemy import create_engine, text import plotly.express as px class Main: def __init__(self): self.result = None self.connection = None self.engine = create_engine("sqlite:///my_database.db", echo=False) self.df = pd.read_csv("website_wata.csv") self.df.to_sql("website_data", self.engine, index=False, if_exists="append") self.get_data() self.transform_data() self.display_graph() def get_data(self): self.connection = self.engine.connect() query = text("SELECT Page_Views, Time_on_Page FROM website_data") self.result = self.connection.execute(query).fetchall() def transform_data(self): for i in range(len(self.result)): self.result[i] = list(self.result[i]) def display_graph(self): fig = px.scatter( self.result, x=0, y=1, title="" ) fig.show() Main()
x 轴表示用户访问的页面数,y 轴表示用户在网站上花费的时间(以分钟为单位)。
我们可以看到,在 4 到 6 个页面之间停留时间最长的用户,在 11 到 15 个页面之间,所有用户都停留了至少几分钟。
免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。
Copyright© 2022 湘ICP备2022001581号-3