注意:上面的嵌入来自 github 存储库,您可以在此处克隆。但是,因为它托管在 github 上,所以所有 JS 交互性都被禁用,因此“切换按钮”将不会被渲染。但是,如果您将存储库克隆到您的计算机并在本地运行笔记本,您将看到该按钮如下所示:

\\\"Jupyter

通过单击“切换按钮”,输入单元格将被隐藏,您将看到如下内容:

\\\"Jupyter

就是这样。总之,以下是我们能够在一个环境(笔记本)中完成的所有操作:

完整的端到端分析工作流程,全部在一个环境中。下一步将是构建一个框架、技术和/或管道,使我们能够与利益相关者无缝地分享我们的报告。如果这篇文章得到足够的关注,我会在下一篇写这篇文章。 ?

","image":"http://www.luping.net/uploads/20240826/172465956766cc376f39a45.jpg","datePublished":"2024-08-26T16:06:07+08:00","dateModified":"2024-08-26T16:06:07+08:00","author":{"@type":"Person","name":"luping.net","url":"https://www.luping.net/articlelist/0_1.html"}}
”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > Jupyter Notebooks 作为端到端分析解决方案

Jupyter Notebooks 作为端到端分析解决方案

发布于2024-08-26
浏览:420

介绍

你醒了。您查看待办事项列表,发现团队成员有一项任务。他们希望您进行某种分析并生成报告。请求本身相对复杂,这意味着您可能需要使用问题陈述对其进行分解,从数据源中提取数据,进行探索,收集您的见解,然后向团队成员讲述您的发现故事。

解决这个问题的方法如下:

  • 在任务跟踪平台(例如 Trello、Jira)中构建问题陈述
  • 从数据源(例如 SQL 数据库,使用 SSMS、Power Query 等接口)提取数据
  • 在分析工具(Python、R、Excel)中执行探索性数据分析和复杂转换
  • 确定见解,然后以易于理解的方式向麻瓜展示它们(一个幻灯片,或者如果您感兴趣的话,可以使用 Tableau 或 Power BI 等可视化工具)

听起来像是数据专业人员生活中的标准一天,对吧?然而,我不知道你怎么想,但在这么多工具之间移动数据可能会让人非常迷失方向。它导致工作流程效率非常低。但如果我告诉你有更好的方法呢?您可以在一个地方准备问题陈述、编写 SQL 查询、执行分析并呈现您的发现吗?如果您使用数据和 Python,您可能已经熟悉 Jupyter Notebook 作为临时分析的优秀工具。 Notebook 的交互式环境允许进行顺序分析和讲故事。但 Notebook 的魅力不仅仅在于它与 IPython 的结合。 Jupyter Notebook 本质上是使用 HTML、CSS 和 JS 构建的;这意味着我们可以利用这些技术来扩展笔记本的功能。在本文中,我将向您展示如何利用 Jupyter Notebook 的 Web 界面和 Python 丰富的数据库来构建端到端报告解决方案。

要继续操作,您需要在系统上安装以下软件和/或软件包:

SQL Server:这是我们将在数据提取中与之交互的 SQL 方言
Aventure Works Database:这是我们要从中查询数据的数据库集合。默认情况下,AW 数据库通常随 SQL Server 安装一起提供。但如果没有,请单击链接并按照有关如何将其加载到 SQL Server 安装中的说明进行操作。
Python 和 Jupyter:同时安装 Python 和 Jupyter 的最简单方法是使用 anaconda 发行版。如果您已经拥有 Python 但只想安装 Jupyter,请使用此链接。
Python 库

  • pyodbc
  • 熊猫
  • sqlalchemy
  • 情节
  • mlxtend
  • 网络x

现在我们已经解决了这个问题,让我们直接深入了解 Jupyter Notebook。您可以在下面找到它:

注意:上面的嵌入来自 github 存储库,您可以在此处克隆。但是,因为它托管在 github 上,所以所有 JS 交互性都被禁用,因此“切换按钮”将不会被渲染。但是,如果您将存储库克隆到您的计算机并在本地运行笔记本,您将看到该按钮如下所示:

Jupyter Notebooks as an End-to-End Analytics Solution

通过单击“切换按钮”,输入单元格将被隐藏,您将看到如下内容:

Jupyter Notebooks as an End-to-End Analytics Solution

就是这样。总之,以下是我们能够在一个环境(笔记本)中完成的所有操作:

  • 定义问题陈述并扩展目标
  • 连接到 SQL 数据库并直接从 SQL 数据库查询数据
  • 执行我们的分析
  • 绘图可视化
  • 使用 Markdown 来格式化我们的章节、布局和结果来讲述故事,并使我们的报告可供非技术受众阅读
  • 提供隐藏我们的技术输入的功能,只留下我们的故事和见解

完整的端到端分析工作流程,全部在一个环境中。下一步将是构建一个框架、技术和/或管道,使我们能够与利益相关者无缝地分享我们的报告。如果这篇文章得到足够的关注,我会在下一篇写这篇文章。 ?

版本声明 本文转载于:https://dev.to/simsights/jupyter-notebooks-as-an-end-to-end-analytics-solution-2d1o?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 为什么MySQL在查询“Field = 0”非数字数据时返回所有行?
    为什么MySQL在查询“Field = 0”非数字数据时返回所有行?
    不明确的查询:理解为什么 MySQL 返回“Field=0”的所有行在 MySQL 查询领域,一个看似无害的比较,例如“SELECT * FROM table WHERE email=0”,可能会产生意外的结果。它没有按预期过滤特定行,而是返回表中的所有记录,从而引发了对数据安全性和查询完整性的担忧...
    编程 发布于2024-11-05
  • 服务器发送事件 (SSE) 的工作原理
    服务器发送事件 (SSE) 的工作原理
    SSE(服务器发送事件)在 Web 开发领域并未广泛使用,本文将深入探讨 SSE 是什么、它是如何工作的以及它如何受益您的申请。 什么是上交所? SSE 是一种通过 HTTP 连接从服务器向客户端发送实时更新的简单而有效的方法。它是 HTML5 规范的一部分,并受到所有现代 Web ...
    编程 发布于2024-11-05
  • 如何从字符串 TraceID 创建 OpenTelemetry Span?
    如何从字符串 TraceID 创建 OpenTelemetry Span?
    从字符串 TraceID 构造 OpenTelemetry Span要建立 Span 之间的父子关系,必须在上下文传播不可行的情况下使用标头。在这种情况下,跟踪 ID 和跨度 ID 包含在消息代理的标头中,这允许订阅者使用父跟踪 ID 创建新的跨度。解决方案以下步骤可以使用跟踪 ID 在订阅者端构建...
    编程 发布于2024-11-05
  • 如何在gRPC中实现服务器到客户端的广播?
    如何在gRPC中实现服务器到客户端的广播?
    gRPC 中的广播:服务器到客户端通信建立 gRPC 连接时,通常需要将事件或更新从服务器广播到客户端连接的客户端。为了实现这一点,可以采用各种方法。Stream Observables一种常见的方法是利用服务器端流。每个连接的客户端都与服务器建立自己的流。然而,直接订阅其他服务器客户端流是不可行的...
    编程 发布于2024-11-05
  • 为什么填充在 Safari 和 IE 选择列表中不起作用?
    为什么填充在 Safari 和 IE 选择列表中不起作用?
    在 Safari 和 IE 的选择列表中不显示填充尽管 W3 规范中没有限制,但 WebKit 浏览器不支持选择框中的填充,包括Safari 和 Chrome。因此,这些浏览器中不应用填充。要解决此问题,请考虑使用 text-indent 而不是 padding-left。通过相应增加选择框的宽度来...
    编程 发布于2024-11-05
  • 在 Spring Boot 中创建自定义注释的终极指南
    在 Spring Boot 中创建自定义注释的终极指南
    Such annotations fill the entire project in Spring Boot. But do you know what problems these annotations solve? Why were custom annotations introduce...
    编程 发布于2024-11-05
  • 为什么 Elixir 在异步处理方面比 Node.js 更好?
    为什么 Elixir 在异步处理方面比 Node.js 更好?
    简单回答:Node.js 是单线程的,并拆分该单线程来模拟并发,而 Elixir 利用了 Erlang 虚拟机 BEAM 原生的并发和并行性,同时执行进程。 下面,我们将更深入地了解这种差异,探索两个关键概念:Node.js 事件循环和 Elixir 的 BEAM VM 和 OTP。这些元素对于理解...
    编程 发布于2024-11-05
  • AngularJS $watch 如何替代动态导航高度调整中的计时器?
    AngularJS $watch 如何替代动态导航高度调整中的计时器?
    避免 AngularJS 的高度监视计时器当导航高度是动态时,AngularJS 程序员经常面临响应式导航的挑战。这就导致需要调整内容的 margin-top 值以响应导航高度的变化。以前,使用计时器来检测导航高度的变化,但这种方法有缺点:使用计时器和调整内容的 margin-top 出现延迟。幸运...
    编程 发布于2024-11-05
  • 从零到 Web 开发人员:掌握 PHP 基础知识
    从零到 Web 开发人员:掌握 PHP 基础知识
    掌握PHP基础知识至关重要:安装PHP创建PHP文件运行代码理解变量和数据类型使用表达式和运算符创建实际项目以提高技能PHP开发入门:掌握PHP基础PHP是一种用途广泛、功能强大的脚本语言,用于创建动态且交互式Web应用程序。对于初学者来说,掌握PHP的基本知识至关重要。一、安装PHP在本地开发机器...
    编程 发布于2024-11-05
  • 缓冲区:Node.js
    缓冲区:Node.js
    Node.js 中缓冲区的简单指南 Node.js 中的 Buffer 用于处理原始二进制数据,这在处理流、文件或网络数据时非常有用。 如何创建缓冲区 来自字符串: const buf = Buffer.from('Hello'); 分配特定大小的Buffer...
    编程 发布于2024-11-05
  • 掌握 Node.js 中的版本管理
    掌握 Node.js 中的版本管理
    作为开发者,我们经常遇到需要不同 Node.js 版本的项目。对于可能不经常参与 Node.js 项目的新手和经验丰富的开发人员来说,这种情况都是一个陷阱:确保每个项目使用正确的 Node.js 版本。 在安装依赖项并运行项目之前,验证您的 Node.js 版本是否匹配或至少兼容项目的要求至关重要。...
    编程 发布于2024-11-05
  • 如何在 Go 二进制文件中嵌入 Git 修订信息以进行故障排除?
    如何在 Go 二进制文件中嵌入 Git 修订信息以进行故障排除?
    确定 Go 二进制文件中的 Git 修订版部署代码时,将二进制文件与构建它们的 git 修订版关联起来会很有帮助排除故障的目的。然而,直接使用修订号更新源代码是不可行的,因为它会改变源代码。解决方案:利用构建标志解决此挑战的方法包括利用构建标志。通过使用构建标志在主包中设置当前 git 修订版的版本...
    编程 发布于2024-11-05
  • 常见 HTML 标签:视角
    常见 HTML 标签:视角
    HTML(超文本标记语言)构成了 Web 开发的基础,是互联网上每个网页的结构。通过了解最常见的 HTML 标签及其高级用途,到 2024 年,开发人员可以创建更高效​​、更易于访问且更具视觉吸引力的网页。在这篇文章中,我们将探讨这些 HTML 标签及其最高级的用例,以帮助您提高 Web 开发技能。...
    编程 发布于2024-11-05
  • CSS 媒体查询
    CSS 媒体查询
    确保网站在各种设备上无缝运行比以往任何时候都更加重要。随着用户通过台式机、笔记本电脑、平板电脑和智能手机访问网站,响应式设计已成为必要。响应式设计的核心在于媒体查询,这是一项强大的 CSS 功能,允许开发人员根据用户设备的特征应用不同的样式。在本文中,我们将探讨什么是媒体查询、它们如何工作以及实现它...
    编程 发布于2024-11-05
  • 了解 JavaScript 中的提升:综合指南
    了解 JavaScript 中的提升:综合指南
    JavaScript 中的提升 提升是一种行为,其中变量和函数声明在之前被移动(或“提升”)到其包含范围(全局范围或函数范围)的顶部代码被执行。这意味着您可以在代码中实际声明变量和函数之前使用它们。 变量提升 变量 用 var 声明的变量被提升到其作...
    编程 发布于2024-11-05

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3