NB : L'intégration ci-dessus provient d'un dépôt github, que vous pouvez cloner ici. Cependant, comme il est hébergé sur github, toute l'interactivité JS est désactivée, donc le « bouton bascule » ne sera pas rendu. Si vous clonez le dépôt sur votre ordinateur et exécutez le notebook localement, vous verrez que le bouton ressemblera à ceci :

\\\"Jupyter

Et en cliquant sur le \\\"Bouton bascule\\\", les cellules de saisie sont masquées et vous vous retrouvez avec quelque chose comme ceci :

\\\"Jupyter

Et c'est tout. En résumé, voici ce que nous avons pu faire dans un seul environnement (le Notebook) :

Un workflow d'analyse complet de bout en bout, le tout dans un seul environnement. La prochaine étape consisterait à créer un cadre, une technologie et/ou un pipeline qui nous permettraient de partager facilement nos rapports avec les parties prenantes. Si cet article reçoit suffisamment d’attention, j’écrirai là-dessus ensuite. ?

","image":"http://www.luping.net/uploads/20240826/172465956766cc376f39a45.jpg","datePublished":"2024-08-26T16:06:07+08:00","dateModified":"2024-08-26T16:06:07+08:00","author":{"@type":"Person","name":"luping.net","url":"https://www.luping.net/articlelist/0_1.html"}}
"Si un ouvrier veut bien faire son travail, il doit d'abord affûter ses outils." - Confucius, "Les Entretiens de Confucius. Lu Linggong"
Page de garde > La programmation > Jupyter Notebooks en tant que solution d'analyse de bout en bout

Jupyter Notebooks en tant que solution d'analyse de bout en bout

Publié le 2024-08-26
Parcourir:647

Introduction

Vous vous réveillez. Vous regardez votre liste de tâches et il y a une tâche confiée à un membre de l'équipe. Ils veulent que vous fassiez une sorte d’analyse et que vous produisiez un rapport. La demande elle-même est relativement complexe, ce qui signifie que vous devrez peut-être la décomposer à l'aide d'un énoncé de problème, extraire des données d'une source de données, l'explorer, recueillir vos informations, puis raconter l'histoire de vos découvertes au membre de l'équipe.

Voici comment résoudre ce problème :

  • Créer un énoncé du problème dans une plateforme de suivi des tâches (par exemple Trello, Jira)
  • Extraire des données d'une source de données (par exemple, base de données SQL, en utilisant une interface telle que SSMS, Power Query)
  • Effectuer des analyses exploratoires de données et des transformations complexes dans un outil analytique (Python, R, Excel)
  • Identifiez les informations, puis présentez-les de manière compréhensible aux moldus (un PowerPoint, ou si vous êtes épicé, un outil de visualisation comme Tableau ou Power BI)

Cela ressemble à une journée standard dans la vie d'un professionnel des données, n'est-ce pas ? Cependant, je ne sais pas pour vous, mais déplacer des données entre autant d’outils peut être assez désorientant. Cela crée un flux de travail très inefficace. Mais et si je vous disais qu’il existe une meilleure solution ? Que vous puissiez préparer votre énoncé de problème, rédiger votre requête SQL, effectuer votre analyse ET présenter vos résultats en un seul endroit ? Si vous travaillez avec des données et Python, vous connaissez probablement déjà Jupyter Notebook en tant qu'excellent outil d'analyse ad hoc. L'environnement interactif du Notebook permet une analyse et une narration séquentielles. Mais la beauté du Notebook ne se limite pas à son mariage avec IPython. Le Jupyter Notebook est essentiellement construit en utilisant HTML, CSS et JS ; ce qui signifie que nous pouvons utiliser ces technologies pour étendre les capacités du portable. Dans cet article, je vais vous montrer comment tirer parti de l'interface Web de Jupyter Notebook et des riches bibliothèques de données de Python pour créer une solution de reporting de bout en bout.

Pour suivre, vous aurez besoin des logiciels et/ou packages suivants pour être installés sur votre système :

SQL Server : il s'agit du dialecte SQL avec lequel nous allons interagir pour notre extraction de données
Base de données Aventure Works : Il s'agit de l'ensemble de bases de données à partir desquelles nous allons interroger nos données. La base de données AW est généralement fournie par défaut avec l'installation de SQL Server. Mais si ce n'est pas le cas, cliquez sur le lien et suivez les instructions pour le charger dans votre installation SQL Server.
Python et Jupyter : le moyen le plus simple d'installer Python et Jupyter en même temps consiste à utiliser la distribution anaconda. Si vous possédez déjà Python mais souhaitez installer uniquement Jupyter, utilisez ce lien.
Bibliothèques Python :

  • pyodbc
  • pandas
  • sqlalchimie
  • intrigue
  • mlxtend
  • réseaux

Maintenant que nous avons réglé cela, passons directement à notre bloc-notes Jupyter. Vous pouvez le trouver intégré ci-dessous :

NB : L'intégration ci-dessus provient d'un dépôt github, que vous pouvez cloner ici. Cependant, comme il est hébergé sur github, toute l'interactivité JS est désactivée, donc le « bouton bascule » ne sera pas rendu. Si vous clonez le dépôt sur votre ordinateur et exécutez le notebook localement, vous verrez que le bouton ressemblera à ceci :

Jupyter Notebooks as an End-to-End Analytics Solution

Et en cliquant sur le "Bouton bascule", les cellules de saisie sont masquées et vous vous retrouvez avec quelque chose comme ceci :

Jupyter Notebooks as an End-to-End Analytics Solution

Et c'est tout. En résumé, voici ce que nous avons pu faire dans un seul environnement (le Notebook) :

  • définir un énoncé du problème et développer les objectifs
  • se connecter et interroger des données directement à partir d'une base de données SQL
  • effectuer notre analyse
  • visualisations de tracé
  • formater nos sections, mises en page et résultats en utilisant le markdown pour raconter une histoire et rendre notre rapport lisible par un public non technique
  • fournir des fonctionnalités qui masquent nos entrées techniques, ne laissant que notre histoire et nos informations

Un workflow d'analyse complet de bout en bout, le tout dans un seul environnement. La prochaine étape consisterait à créer un cadre, une technologie et/ou un pipeline qui nous permettraient de partager facilement nos rapports avec les parties prenantes. Si cet article reçoit suffisamment d’attention, j’écrirai là-dessus ensuite. ?

Déclaration de sortie Cet article est reproduit à l'adresse : https://dev.to/simsights/jupyter-notebooks-as-an-end-to-end-analytics-solution-2d1o?1 En cas de violation, veuillez contacter [email protected] pour le supprimer
Dernier tutoriel Plus>

Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.

Copyright© 2022 湘ICP备2022001581号-3