Hinweis: Die obige Einbettung stammt aus einem Github-Repo, das Sie hier klonen können. Da es jedoch auf Github gehostet wird, ist die gesamte JS-Interaktivität deaktiviert, sodass der „Toggle Button“ nicht gerendert wird. Wenn Sie das Repo jedoch auf Ihren Computer klonen und das Notebook lokal ausführen, werden Sie feststellen, dass die Schaltfläche etwa so aussieht:

\\\"Jupyter

Und wenn Sie auf die Schaltfläche „Umschalten“ klicken, werden die Eingabezellen ausgeblendet und Sie erhalten etwa Folgendes:

\\\"Jupyter

Und das ist es. Zusammenfassend ist Folgendes möglich, was wir alles in einer Umgebung (dem Notebook) tun konnten:

Ein vollständiger End-to-End-Analyseworkflow, alles in einer Umgebung. Der nächste Schritt wäre der Aufbau eines Frameworks, einer Technologie und/oder einer Pipeline, die es uns ermöglicht, unsere Berichte nahtlos mit Stakeholdern zu teilen. Wenn dieser Artikel genügend Aufmerksamkeit erhält, werde ich als nächstes darüber schreiben. ?

","image":"http://www.luping.net/uploads/20240826/172465956766cc376f39a45.jpg","datePublished":"2024-08-26T16:06:07+08:00","dateModified":"2024-08-26T16:06:07+08:00","author":{"@type":"Person","name":"luping.net","url":"https://www.luping.net/articlelist/0_1.html"}}
„Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen.“ – Konfuzius, „Die Gespräche des Konfuzius. Lu Linggong“
Titelseite > Programmierung > Jupyter Notebooks als End-to-End-Analyselösung

Jupyter Notebooks als End-to-End-Analyselösung

Veröffentlicht am 26.08.2024
Durchsuche:865

Einführung

Du wachst auf. Sie sehen sich Ihre To-Do-Liste an und da ist eine Aufgabe von einem Teammitglied. Sie möchten, dass Sie eine Analyse durchführen und einen Bericht erstellen. Die Anfrage selbst ist relativ komplex, was bedeutet, dass Sie sie möglicherweise anhand einer Problemstellung aufschlüsseln, Daten aus einer Datenquelle abrufen, sie untersuchen, Ihre Erkenntnisse sammeln und dann dem Teammitglied eine Geschichte Ihrer Ergebnisse erzählen müssen.

So könnte die Lösung dieses Problems ablaufen:

  • Erstellen Sie eine Problemstellung in einer Aufgabenverfolgungsplattform (z. B. Trello, Jira)
  • Daten aus einer Datenquelle abrufen (z. B. SQL-Datenbank, über eine Schnittstelle wie SSMS, Power Query)
  • Explorative Datenanalysen und komplexe Transformationen in einem Analysetool (Python, R, Excel) durchführen
  • Identifizieren Sie Erkenntnisse und präsentieren Sie sie dann Muggeln auf leicht verständliche Weise (ein Powerpoint oder, wenn Sie scharfsinnig sind, ein Visualisierungstool wie Tableau oder Power BI)

Klingt nach einem ganz normalen Tag im Leben eines Datenprofis, oder? Allerdings weiß ich nicht, wie es Ihnen geht, aber das Verschieben von Daten über so viele Tools hinweg kann ziemlich verwirrend sein. Dies führt zu einem sehr ineffizienten Arbeitsablauf. Aber was wäre, wenn ich Ihnen sagen würde, dass es einen besseren Weg gibt? Dass Sie Ihre Problemstellung vorbereiten, Ihre SQL-Abfrage schreiben, Ihre Analyse durchführen UND Ihre Ergebnisse präsentieren können, alles an einem Ort? Wenn Sie mit Daten und Python arbeiten, kennen Sie das Jupyter Notebook wahrscheinlich bereits als hervorragendes Tool für Ad-hoc-Analysen. Die interaktive Umgebung des Notebooks ermöglicht eine sequentielle Analyse und das Geschichtenerzählen. Aber die Schönheit des Notebooks endet nicht nur mit seiner Verbindung mit IPython. Das Jupyter Notebook ist im Wesentlichen mit HTML, CSS und JS erstellt; Das bedeutet, dass wir diese Technologien nutzen können, um die Möglichkeiten des Notebooks zu erweitern. In diesem Artikel zeige ich Ihnen, wie wir die Weboberfläche des Jupyter Notebook und die umfangreichen Datenbibliotheken von Python nutzen können, um eine End-to-End-Berichtslösung zu erstellen.

Um mitmachen zu können, müssen die folgende Software und/oder Pakete auf Ihrem System installiert sein:

SQL Server: Dies ist der SQL-Dialekt, mit dem wir für unsere Datenextraktion interagieren werden
Aventure Works-Datenbank: Dies ist die Sammlung von Datenbanken, aus denen wir unsere Daten abfragen werden. Die AW-Datenbank wird normalerweise standardmäßig mit der SQL Server-Installation geliefert. Wenn dies jedoch nicht der Fall ist, klicken Sie auf den Link und befolgen Sie die Anweisungen zum Laden in Ihre SQL Server-Installation.
Python und Jupyter: Der einfachste Weg, Python und Jupyter gleichzeitig zu installieren, ist die Verwendung der Anaconda-Distribution. Wenn Sie bereits Python haben, aber nur Jupyter installieren möchten, verwenden Sie diesen Link.
Python-Bibliotheken:

  • pyodbc
  • Pandas
  • SQLalchemie
  • plotly
  • mlxtend
  • Netzwerkx

Da wir das nun geklärt haben, tauchen wir direkt in unser Jupyter-Notizbuch ein. Sie können es unten eingebettet finden:

Hinweis: Die obige Einbettung stammt aus einem Github-Repo, das Sie hier klonen können. Da es jedoch auf Github gehostet wird, ist die gesamte JS-Interaktivität deaktiviert, sodass der „Toggle Button“ nicht gerendert wird. Wenn Sie das Repo jedoch auf Ihren Computer klonen und das Notebook lokal ausführen, werden Sie feststellen, dass die Schaltfläche etwa so aussieht:

Jupyter Notebooks as an End-to-End Analytics Solution

Und wenn Sie auf die Schaltfläche „Umschalten“ klicken, werden die Eingabezellen ausgeblendet und Sie erhalten etwa Folgendes:

Jupyter Notebooks as an End-to-End Analytics Solution

Und das ist es. Zusammenfassend ist Folgendes möglich, was wir alles in einer Umgebung (dem Notebook) tun konnten:

  • Definieren Sie eine Problemstellung und erläutern Sie die Ziele
  • Verbindung zu einer SQL-Datenbank herstellen und Daten direkt aus dieser abfragen
  • führen Sie unsere Analyse durch
  • Plotvisualisierungen
  • Formatieren Sie unsere Abschnitte, Layouts und Ergebnisse mithilfe von Markdown, um eine Geschichte zu erzählen und unseren Bericht für ein technisch nicht versiertes Publikum lesbar zu machen
  • Funktionalität bereitstellen, die unsere technischen Eingaben verbirgt und nur unsere Geschichte und Erkenntnisse übrig lässt

Ein vollständiger End-to-End-Analyseworkflow, alles in einer Umgebung. Der nächste Schritt wäre der Aufbau eines Frameworks, einer Technologie und/oder einer Pipeline, die es uns ermöglicht, unsere Berichte nahtlos mit Stakeholdern zu teilen. Wenn dieser Artikel genügend Aufmerksamkeit erhält, werde ich als nächstes darüber schreiben. ?

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/simsights/jupyter-notebooks-as-an-end-to-end-analytics-solution-2d1o?1 Bei Verstößen wenden Sie sich bitte an [email protected] um es zu löschen
Neuestes Tutorial Mehr>

Haftungsausschluss: Alle bereitgestellten Ressourcen stammen teilweise aus dem Internet. Wenn eine Verletzung Ihres Urheberrechts oder anderer Rechte und Interessen vorliegt, erläutern Sie bitte die detaillierten Gründe und legen Sie einen Nachweis des Urheberrechts oder Ihrer Rechte und Interessen vor und senden Sie ihn dann an die E-Mail-Adresse: [email protected] Wir werden die Angelegenheit so schnell wie möglich für Sie erledigen.

Copyright© 2022 湘ICP备2022001581号-3