«Если рабочий хочет хорошо выполнять свою работу, он должен сначала заточить свои инструменты» — Конфуций, «Аналитики Конфуция. Лу Лингун»
титульная страница > программирование > Будущее визуализации данных с помощью искусственного интеллекта

Будущее визуализации данных с помощью искусственного интеллекта

Опубликовано 4 ноября 2024 г.
Просматривать:791

The future of AI data visualization

С тех пор, как LLM появились на сцене, одним из самых первых вариантов использования/демо был анализ данных. На этом этапе большинство из нас использовали ChatGPT, Claude или какой-либо другой ИИ для создания диаграммы, но создается впечатление, что еще не решено, какую роль ИИ будет играть в визуализации данных. Будем ли мы продолжать использовать по умолчанию графики «укажи и щелкни»? Будет ли ИИ генерировать 100% диаграмм? Или это будущий гибрид, сочетающий в себе некоторые поколения искусственного интеллекта и некоторые элементы «укажи и щелкни»?

Как основатель сферы искусственного интеллекта и визуализации данных, я считаю эту тему почти экзистенциальной. Основанные после 2022 года (то есть после того, как LLM по-настоящему появились на сцене), мы должны принять решение о том, как мы хотим работать с графиками. Должны ли мы вкладывать часы и часы работы разработчиков (и средства) в разработку функций построения диаграмм, или это уйдет и станет невозвратными затратами для всех инструментов, созданных до LLM? Или будущее гибридное? Недавно я наткнулся на Data Formulator, исследовательский проект, изучающий некоторые действительно интересные взаимодействия между ИИ и традиционными диаграммами, что возродило для меня этот вопрос.

В этом посте я собираюсь взглянуть на то, где мы находимся сегодня в области преобразования текста в диаграмму (или преобразования текста в визуализацию) и куда мы можем двигаться в будущем.

Текущее состояние преобразования текста в визуализацию

Как и все, что связано с искусственным интеллектом, этот пост, скорее всего, не устареет. В ближайшие 6 месяцев появится какая-то новая информация или модель, которая полностью изменит наше представление об этой теме. Тем не менее, давайте посмотрим на различные состояния визуализации данных и искусственного интеллекта.

Чистое построение диаграмм «укажи и щелкни»

Я не буду слишком задерживаться на этом, поскольку большинство читателей это хорошо знают. Откройте Excel, Google Sheets или любой другой инструмент обработки данных, созданный до 2023 года, и вы получите некую форму этого. Иногда вы нажимаете кнопку, чтобы добавить данные на ось, иногда вы перетаскиваете поле, но концепция та же: вы соответствующим образом структурируете данные, а затем нажимаете несколько кнопок, чтобы создать диаграмму.

В этой парадигме подавляющее большинство операций по очистке и преобразованию данных происходит до построения диаграмм. Обычно вы можете применять такие показатели агрегирования, как среднее, медиана, количество, минимум, максимум и т. д., но все преобразования довольно элементарны.

Диаграммы, созданные на 100% с помощью искусственного интеллекта

Диаграммы, генерируемые искусственным интеллектом, или преобразование текста в визуализацию, действительно существуют только с момента появления современных LLM (если мы покопаемся, эксперименты проводились и раньше, но для всех практических целей мы можем сосредоточиться на периоде после 2022 года). LLM).

ChatGPT OpenAI может генерировать неинтерактивные диаграммы с использованием Python или ограниченный набор интерактивных диаграмм с использованием библиотек внешнего интерфейса (некоторые примеры см. в OpenAI Canvas). Как и все, что касается OpenAI, Anthropic имеет свои собственные аналогичные концепции и артефакты.

Здесь стоит отметить, что диаграммы, созданные с помощью ИИ, можно разделить на два семейства: диаграммы, созданные исключительно на Pythonic/серверной части, или смесь серверной и внешней частей.

ChatGPT и Клод попеременно переключаются между ними. Обучение ИИ генерированию внешнего кода и интеграция этого внешнего кода для создания визуализаций может оказаться гораздо более трудоемкой задачей, чем просто полагаться на Python с использованием такой библиотеки, какplotly, matplotlib, seaborn. С другой стороны, библиотеки внешнего интерфейса дают поставщикам и пользователям больше контроля над внешним видом диаграммы и ее интерактивностью. Вот почему поставщики LLM используют свой ИИ для создания базовых диаграмм, таких как гистограммы, линейные диаграммы или диаграммы рассеяния, но все более сложное, такое как диаграмма Сэнки или водопадная диаграмма, возвращается к Python.

Краткая врезка на Fabi.ai: поскольку мы являемся платформой для анализа данных, мы, очевидно, предлагаем диаграммы, и, несмотря на некоторые диаграммы «укажи и щелкни», подавляющее большинство диаграмм, созданных нашими пользователями, создаются искусственным интеллектом. На данный момент мы обнаружили, что ИИ чрезвычайно хорош в создании диаграмм, и, используя чистый Python для построения диаграмм, мы смогли научить ИИ генерировать практически любую диаграмму, которую может придумать пользователь. До сих пор мы предпочитали точность и гибкость функциональности «укажи и щелкни» и индивидуальному дизайну пользовательского интерфейса.
Гибрид: создание искусственного интеллекта в парадигме «укажи и щелкни»
Именно здесь все становится интереснее в дебатах о том, куда движется ИИ-текст-визуализация. Перенесемся на 3 года вперед: когда кто-то проводит анализ, если он использует ИИ, позволят ли они ИИ взять на себя 100% контроль, или ИИ будет использоваться в смешанной среде, где он может редактировать диаграммы только в пределах границ определенные функции «укажи и щелкни».

Чтобы сделать эту картину более конкретной, воспользуйтесь Data Formulator. Это недавний исследовательский проект, который пытается предложить настоящую смешанную среду, в которой ИИ может вносить определенные изменения, но пользователь может взять на себя управление и использовать функции «укажи и щелкни» по мере необходимости.

Если мы зададим вопрос, используя аналогию с автомобилем: верите ли вы, что в будущем у автомобилей не будет руля, или вы верите, что появится водитель, которому придется сидеть там, обращать внимание и время от времени брать закончилось, аналогично тому, как сейчас работает функция беспилотного вождения Tesla?

Первые принципы: то, что я считаю правдой

Вопрос о том, куда идут дела, действительно важен для нас в Fabi.ai, поскольку это может сильно повлиять на определенные решения, которые мы принимаем: инвестируем ли мы в интеграцию библиотеки диаграмм во внешний интерфейс? Стоит ли нам вообще беспокоиться о функциональности «укажи и щелкни»? Как растущая инновационная компания, лидирующая в области анализа данных искусственного интеллекта, мы должны думать о том, куда движется шайба, а не о том, где она находится в данный момент.

Итак, чтобы ответить на этот вопрос, я воспользуюсь некоторыми принципами мышления.

ИИ становится только лучше, быстрее и дешевле

С самого первого раза, когда я использовал ИИ и возникли жалобы на скорость и стоимость, я верил, что ИИ будет продолжать становиться лучше, быстрее и дешевле. Грубо говоря, стоимость токена за последние несколько лет падала на 87% в год. Снизилась не только стоимость, но и резко возросли точность и скорость.

В ближайшие 10 лет мы будем оглядываться на программы LLM 2024 года так же, как мы оглядываемся на «суперкомпьютеры» 80-х и 90-х годов теперь, когда у всех нас есть суперкомпьютеры в карманах, куда бы мы ни пошли.

Все это говорит о том, что любой аргумент за или против любого из различных подходов к построению диаграмм, упомянутых выше, не может заключаться в том, что ИИ слишком медленный, дорогой или неточный для создания диаграмм. Другими словами, чтобы поверить в то, что диаграммы «укажи и щелкни» все еще будут существовать в той или иной форме, вы должны верить, что в пользовательском опыте или сценарии использования есть что-то, что заслуживает этой функциональности.

Самая сложная часть визуализации данных — это обработка и очистка данных.

По моему опыту, при проведении любого анализа данных, включающего визуализацию, самое сложное — это не построение диаграмм. Самое сложное — очистить данные и привести их в правильный формат для диаграммы, которую я пытаюсь создать.

Скажем, некоторые данные о пользовательских событиях, которые имеют следующие поля:

  • Идентификатор события
  • Время начала мероприятия
  • Время окончания мероприятия

Теперь предположим, что я хочу построить график средней продолжительности события по часам, чтобы измерить задержку. Прежде чем я смогу построить какую-либо диаграмму в электронной таблице или устаревшем инструменте построения диаграмм, мне нужно:

  1. Рассчитать время окончания минус время начала (вероятно, сначала мне придется выполнить какое-то форматирование)
  2. Сводить данные по часам, что на самом деле удивительно сложно сделать

Но если попросить ИИ сделать это, он позаботится обо всем этом и построит график всего за секунду или две:

# Calculate the event duration in hours
df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600

# Extract the start hour from the start datetime
df['Start hour'] = df['Event start datetime'].dt.hour

# Group by start hour and calculate the average duration
average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index()

# Plot using Plotly
fig = px.bar(
    average_duration_by_hour, 
    x='Start hour', 
    y='Event duration (hours)',
    title='Average Event Duration by Hour',
    labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'},
    text='Event duration (hours)'
)

# Show the figure
fig.show()

И это был один из самых простых возможных примеров. В большинстве случаев реальные данные гораздо сложнее.

Будущее преобразования текста в визуализацию с помощью искусственного интеллекта: несколько щелчков мышью со 100%-ной генерацией искусственного интеллекта

На этом этапе вы, вероятно, уже поняли, к чему я склоняюсь. Пока вы можете получить примерно правильный набор данных со всеми данными, необходимыми для анализа, ИИ уже отлично справляется с манипулированием им и составлением диаграмм в мгновение ока. Перенесемся на год, два или три вперед: трудно представить, что это не станет стандартом.

Тем не менее, появляются некоторые интересные гибридные подходы, такие как Data Formulator. Аргументом в пользу такого подхода является то, что, возможно, наши руки и мозг способны двигаться быстрее, чтобы быстро вносить изменения, чем нам нужно, чтобы подумать о том, чего мы хотим, и объяснить это достаточно ясно, чтобы ИИ мог выполнить свою работу. Если я спрошу «Покажите мне общий объем продаж по месяцам за последние 12 месяцев», предполагая, что это должна быть гистограмма с разбивкой по регионам, возможно, нам будет проще просто перемещать мышь. Если это так, то гибридный подход может оказаться наиболее интересным: попросите ИИ сделать первый шаг, затем несколько щелчков мышью, и вы получите то, что хотите.

Ключ к успеху как полного подхода к искусственному интеллекту, так и гибридного подхода будет заключаться в пользовательском опыте. Специально для гибридного подхода взаимодействие между искусственным интеллектом и человеком должно идеально работать рука об руку и быть невероятно интуитивно понятным для пользователя.

Я с нетерпением жду развития этой сферы и того, куда мы пойдем с преобразованием текста в визуализацию в ближайшие 12 месяцев.

Заявление о выпуске Эта статья воспроизведена по адресу: https://dev.to/mfdupuis/the-future-of-ai-data-visualization-56oe?1. В случае нарушения авторских прав свяжитесь с [email protected], чтобы удалить ее.
Последний учебник Более>

Изучайте китайский

Отказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.

Copyright© 2022 湘ICP备2022001581号-3