Depuis que les LLM sont entrés en scène, l'un des tout premiers cas d'utilisation/démo a été l'analyse des données. À ce stade, la plupart d’entre nous ont utilisé ChatGPT, Claude ou une autre IA pour générer un graphique, mais il semble que le jury n’ait pas encore déterminé le rôle que l’IA jouera dans la visualisation des données. Allons-nous continuer à utiliser par défaut les graphiques pointer-cliquer ? L’IA générera-t-elle 100 % des graphiques ? Ou le futur est-il hybride, mêlant une certaine génération d’IA et du pointer-cliquer ?
En tant que fondateur dans le domaine de l'IA et de la visualisation de données, je trouve ce sujet presque existentiel. Fondés après 2022 (c'est-à-dire après que les LLM soient réellement entrés en scène), nous devons prendre une décision sur la manière dont nous voulons gérer la cartographie. Devons-nous investir des heures et des heures de travail de développement (et des fonds) pour développer des fonctionnalités de cartographie, ou est-ce que cela va disparaître et entraîner un coût irrécupérable pour tous les outils construits avant les LLM ? Ou le futur est-il hybride ? Je suis récemment tombé sur Data Formulator, un projet de recherche qui explore des interactions vraiment intéressantes entre l'IA et la cartographie traditionnelle, ce qui a relancé cette question pour moi.
Dans cet article, je vais examiner où nous en sommes aujourd'hui en matière de texte vers graphique (ou texte vers visualisation) et vers où nous pourrions nous diriger à l'avenir.
Comme tout ce qui concerne l’IA, cet article ne vieillira probablement pas très bien. Une nouvelle information ou un nouveau modèle sortira dans les 6 prochains mois et changera complètement notre façon de penser ce sujet. Néanmoins, jetons un coup d'œil aux différents états de la visualisation des données et de l'IA.
Je ne m'attarderai pas trop sur celui-ci puisque la plupart des lecteurs le connaissent bien. Ouvrez Excel, Google Sheets ou tout autre outil de données construit avant 2023 et vous en aurez une forme ou une autre. Parfois, vous cliquez pour ajouter des données à un axe, parfois vous faites glisser et déposez un champ, mais le concept est le même : vous structurez les données de manière appropriée, puis vous appuyez sur quelques boutons pour générer un graphique.
Dans ce paradigme, la grande majorité du nettoyage et de la transformation des données se produit avant la cartographie. Vous pouvez généralement appliquer des mesures d'agrégation telles que la moyenne, la médiane, le nombre, le min, le max, etc. mais toutes les transformations sont assez rudimentaires.
Les graphiques générés par l'IA, ou texte-visualisation, n'existent vraiment que depuis l'avènement des LLM modernes (si nous creusons, des expériences ont eu lieu avant, mais à toutes fins pratiques, nous pouvons nous concentrer sur l'après-2022 LLM).
ChatGPT d'OpenAI peut générer des graphiques non interactifs à l'aide de Python, ou un ensemble limité de graphiques interactifs à l'aide de bibliothèques frontales (voir OpenAI Canvas pour quelques exemples). Comme pour tout ce qui concerne OpenAI, Anthropic a ses propres concepts analogues et possède des artefacts.
Il convient de noter ici que les graphiques générés par l'IA peuvent être subdivisés en deux familles : les graphiques générés purement pythoniques/back-end ou un mélange de back-end et de front-end.
ChatGPT et Claude alternent entre les deux. Former une IA pour générer du code frontal et intégrer ce code frontal pour créer des visualisations peut représenter beaucoup plus de travail que de simplement s'appuyer sur Python, en utilisant une bibliothèque telle que plotly, matplotlib, seaborn. D'un autre côté, les bibliothèques frontales donnent aux fournisseurs et aux utilisateurs plus de contrôle sur l'apparence du graphique et sur l'interactivité. C'est pourquoi les fournisseurs LLM demandent à leur IA de générer des graphiques de base tels que des graphiques à barres, des graphiques linéaires ou des nuages de points, mais tout ce qui est plus sophistiqué comme un diagramme de Sankey ou un graphique en cascade revient à Python.
Une brève barre latérale sur Fabi.ai : étant donné que nous sommes une plate-forme d'analyse de données, nous proposons évidemment des graphiques, et malgré certains graphiques pointer-cliquer, la grande majorité des graphiques créés par nos utilisateurs sont générés par l'IA. Jusqu’à présent, nous avons constaté que l’IA est remarquablement efficace pour générer des graphiques, et en tirant parti de Python pur pour la création de graphiques, nous avons pu entraîner l’IA à générer presque tous les graphiques que l’utilisateur peut imaginer. Jusqu'à présent, nous avons choisi cette précision et cette flexibilité plutôt que la fonctionnalité pointer-cliquer et les conceptions d'interface utilisateur personnalisées.
Hybride : génération d'IA dans un paradigme pointer-cliquer
C’est là que les choses commencent à devenir intéressantes dans le débat sur la direction que prend la synthèse texte-visualisation de l’IA. Avance rapide dans 3 ans, lorsque quelqu'un effectuera une analyse, s'il utilise l'IA, laissera-t-il l'IA prendre le contrôle à 100 %, ou l'IA sera-t-elle utilisée dans un environnement mixte où elle ne pourra éditer les graphiques que dans les limites de certaines fonctionnalités pointer-cliquer.
Pour rendre cette image plus concrète, consultez Data Formulator. Il s'agit d'un projet de recherche récent qui tente d'offrir un véritable environnement mixte dans lequel l'IA peut effectuer certaines modifications, mais l'utilisateur peut prendre le relais et utiliser la fonctionnalité pointer-cliquer selon ses besoins.
Si nous posons la question en utilisant une analogie automobile : pensez-vous qu'à l'avenir les voitures n'auront pas de volant, ou pensez-vous qu'il y aura un conducteur qui devra s'asseoir là et faire attention et de temps en temps prendre terminé, de la même manière que la fonctionnalité de conduite autonome de Tesla fonctionne actuellement ?
La question de savoir où vont les choses est très importante pour nous chez Fabi.ai, car cela pourrait grandement influencer certaines décisions que nous prenons : investissons-nous dans l'intégration d'une bibliothèque de graphiques dans le front-end ? Devons-nous même nous soucier de la fonctionnalité pointer-cliquer ? En tant qu'entreprise innovante et en pleine croissance, leader dans le domaine de l'analyse des données d'IA, nous devons réfléchir à la direction que prend la rondelle, et non à l'endroit où elle se trouve actuellement.
Donc, pour répondre à cette question, je vais utiliser une réflexion sur les premiers principes.
Dès la première fois que j'ai utilisé l'IA et que des plaintes ont surgi concernant la vitesse et le coût, j'ai cru que l'IA allait continuer à s'améliorer, plus rapidement et moins cher. En gros, le coût par token a diminué de 87 % par an au cours des dernières années. Non seulement le coût a diminué, mais la précision et la vitesse ont également considérablement augmenté.
Au cours des 10 prochaines années, nous regarderons les LLM de 2024 de la même manière que nous regardons les « superordinateurs » des années 80 et 90, maintenant que nous avons tous des superordinateurs dans nos poches partout où nous allons.
Tout cela pour dire que tout argument pour ou contre l'une des différentes approches graphiques mentionnées ci-dessus ne peut pas être que l'IA est trop lente, coûteuse ou imprécise pour générer des graphiques. En d’autres termes, pour croire que les graphiques pointer-cliquer existeront toujours sous quelque forme que ce soit, vous devez croire qu’il y a quelque chose dans l’expérience utilisateur ou le cas d’utilisation qui mérite cette fonctionnalité.
D'après mon expérience, lors de toute forme d'analyse de données impliquant la visualisation, la partie la plus difficile n'est pas la création de graphiques. Le plus difficile est de nettoyer et de préparer les données dans le bon format pour le graphique que j'essaie de créer.
Disons que je donne des données d'événement utilisateur comportant les champs suivants :
Disons maintenant que je souhaite tracer la durée moyenne de l'événement par heure pour mesurer la latence. Avant de pouvoir créer un quelconque type de graphique dans une feuille de calcul ou un outil de création de graphiques existant, je dois :
Mais en demandant à l'IA de faire cela, elle s'occupe de tout cela et de la cartographie en seulement une seconde ou deux :
# Calculate the event duration in hours df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600 # Extract the start hour from the start datetime df['Start hour'] = df['Event start datetime'].dt.hour # Group by start hour and calculate the average duration average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index() # Plot using Plotly fig = px.bar( average_duration_by_hour, x='Start hour', y='Event duration (hours)', title='Average Event Duration by Hour', labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'}, text='Event duration (hours)' ) # Show the figure fig.show()
Et c'était l'un des exemples les plus simples possibles. La plupart du temps, les données du monde réel sont beaucoup plus compliquées.
À ce stade, vous avez probablement une idée de ma position. Tant que vous pouvez obtenir un ensemble de données à peu près correct avec toutes les données nécessaires à une analyse, l'IA fait déjà un travail remarquablement bon pour le manipuler et le tracer en un clin d'œil. Dans un, deux ou trois ans, il est difficile d’imaginer que ce ne sera pas la norme.
Cela dit, il existe des approches hybrides intéressantes qui apparaissent comme Data Formulator. L’argument en faveur de ce type d’approche est que nos mains et notre cerveau sont peut-être capables d’agir plus rapidement pour effectuer des ajustements qu’il ne nous faut pour réfléchir à ce que nous voulons et l’expliquer suffisamment clairement pour que l’IA fasse son travail. Si je demande « Montrez-moi le total des ventes par mois au cours des 12 derniers mois » en supposant qu'il s'agit d'un graphique à barres empilées réparti par région, il est possible que nous trouvions plus facile de simplement déplacer notre souris. Si tel est le cas, l’approche hybride est peut-être la plus intéressante : demandez à l’IA de faire un premier essai, puis quelques clics et vous avez ce que vous voulez.
La clé du succès, qu'il s'agisse d'une approche complète d'IA ou d'une approche hybride, résidera dans l'expérience utilisateur. Surtout pour l'approche hybride, l'IA et les interactions humaines doivent fonctionner parfaitement de pair et être incroyablement intuitives pour l'utilisateur.
Je suis ravi de voir l'espace se développer et de savoir où nous nous dirigerons avec la synthèse texte-visualisation au cours des 12 prochains mois.
Clause de non-responsabilité: Toutes les ressources fournies proviennent en partie d'Internet. En cas de violation de vos droits d'auteur ou d'autres droits et intérêts, veuillez expliquer les raisons détaillées et fournir une preuve du droit d'auteur ou des droits et intérêts, puis l'envoyer à l'adresse e-mail : [email protected]. Nous nous en occuperons pour vous dans les plus brefs délais.
Copyright© 2022 湘ICP备2022001581号-3