"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > AI 데이터 시각화의 미래

AI 데이터 시각화의 미래

2024-11-04에 게시됨
검색:884

The future of AI data visualization

LLM이 등장한 이후 최초의 사용 사례/데모 중 하나는 데이터 분석이었습니다. 이 단계에서 우리 대부분은 ChatGPT, Claude 또는 기타 AI를 사용하여 차트를 생성했지만, AI가 데이터 시각화에서 수행할 역할에 대해서는 아직 판단이 미흡한 것 같습니다. 계속해서 기본적으로 포인트 앤 클릭 차트를 사용하게 됩니까? AI가 차트를 100% 생성할 수 있나요? 아니면 일부 AI 세대와 일부 포인트 앤 클릭을 혼합하는 미래의 하이브리드입니까?

AI 및 데이터 시각화 분야의 창립자로서 저는 이 주제가 거의 실존적이라고 생각합니다. 2022년 이후에 설립된(즉, LLM이 실제로 현장에 등장한 후) 차트 처리 방법을 결정해야 합니다. 차트 기능을 개발하기 위해 몇 시간의 개발 작업(및 자금)을 투자합니까, 아니면 이것이 사라지고 LLM 이전에 구축된 모든 도구에 대한 매몰 비용이 발생합니까? 아니면 미래의 하이브리드인가? 저는 최근 AI와 기존 차트 간의 정말 흥미로운 상호 작용을 탐구하는 연구 프로젝트인 Data Formulator를 접하게 되었고 이 질문을 다시 떠올렸습니다.

이 게시물에서는 텍스트-차트(또는 텍스트-시각화)에 대한 현재 위치와 향후 어디로 향할지 살펴보겠습니다.

텍스트-시각화의 현재 상태

AI와 마찬가지로 이 게시물도 오래되지 않을 것 같습니다. 앞으로 6개월 내에 새로운 정보나 모델이 등장하여 이 주제에 대한 우리의 생각을 완전히 바꿀 것입니다. 그럼에도 불구하고, 데이터 시각화와 AI의 다양한 현황을 살펴보겠습니다.

순수한 포인트 앤 클릭 차트

이 내용은 대부분의 독자들이 잘 알고 있기 때문에 길게 설명하지 않겠습니다. Excel, Google Sheets 또는 2023년 이전에 구축된 기타 데이터 도구를 열면 이러한 도구가 표시됩니다. 때로는 클릭하여 축에 데이터를 추가하고 때로는 필드를 끌어서 놓기도 하지만 개념은 동일합니다. 즉, 데이터를 적절하게 구성한 다음 몇 개의 버튼을 눌러 차트를 생성합니다.

이 패러다임에서는 대부분의 데이터 정리 및 변환이 차트 작성 이전에 발생합니다. 일반적으로 평균, 중앙값, 개수, 최소값, 최대값 등과 같은 집계 측정항목을 적용할 수 있지만 모든 변환은 상당히 기초적입니다.

100% AI 생성 차트

AI 생성 차트 또는 텍스트-시각화는 현대 LLM이 출현한 이후에만 실제로 존재했습니다. (자세히 살펴보면 그 이전에도 실험이 진행 중이었지만 모든 실용적인 목적을 위해 2022년 이후에 집중할 수 있습니다. LLM).

OpenAI의 ChatGPT는 Python을 사용하여 비대화형 차트를 생성하거나 프런트 엔드 라이브러리를 사용하여 제한된 대화형 차트 세트를 생성할 수 있습니다(몇 가지 예는 OpenAI Canvas 참조). OpenAI와 마찬가지로 Anthropic에도 유사한 개념과 아티팩트가 있습니다.

여기서 AI 생성 차트는 순전히 Pythonic/백엔드 생성 차트 또는 백엔드와 프런트엔드의 혼합이라는 두 가지 제품군으로 나눌 수 있다는 점에 주목할 가치가 있습니다.

ChatGPT와 Claude가 둘을 교대로 사용합니다. 프런트 엔드 코드를 생성하도록 AI를 교육하고 해당 프런트 엔드 코드를 통합하여 시각화를 만드는 것은 단순히 Python에 의존하고 플롯, matplotlib, seaborn과 같은 라이브러리를 사용하는 것보다 훨씬 더 많은 작업이 될 수 있습니다. 반면에 프런트 엔드 라이브러리를 사용하면 공급자와 사용자가 차트의 모양과 느낌 및 상호 작용을 보다 효과적으로 제어할 수 있습니다. 이것이 바로 LLM 제공업체가 AI에서 막대형 차트, 선형 차트, 분산형 차트와 같은 기본 차트를 생성하도록 했지만 Sankey 다이어그램이나 폭포형 차트와 같은 더 정교한 차트는 Python으로 대체되는 이유입니다.

Fabi.ai에 대한 간략한 사이드바: 우리는 데이터 분석 플랫폼인 만큼 당연히 차트를 제공하며, 일부 포인트 앤 클릭 차트에도 불구하고 사용자가 만든 차트의 대부분은 AI에서 생성되었습니다. 지금까지 우리는 AI가 차트를 생성하는 데 매우 뛰어나다는 사실을 확인했으며, 차트 작성에 순수 Python을 활용함으로써 AI가 사용자가 꿈꾸는 거의 모든 차트를 생성하도록 훈련할 수 있었습니다. 지금까지 우리는 포인트 앤 클릭 기능과 맞춤형 UI 디자인보다 정확성과 유연성을 선택했습니다.
하이브리드: 포인트 앤 클릭 패러다임의 AI 생성
이것이 바로 AI 텍스트-시각화의 방향에 대한 논쟁이 흥미로워지기 시작하는 지점입니다. 3년 후, 누군가 분석을 할 때 AI를 사용한다면 AI가 100% 제어권을 갖게 될까요, 아니면 AI가 제한된 범위 내에서만 차트를 편집할 수 있는 혼합 환경에서 사용될까요? 특정 포인트 앤 클릭 기능.

이 그림을 더욱 구체적으로 만들려면 Data Formulator를 확인하세요. 이는 AI가 특정 편집을 수행할 수 있지만 사용자가 필요에 따라 포인트 앤 클릭 기능을 대신 사용할 수 있는 진정한 혼합 환경을 제공하려는 최근 연구 프로젝트입니다.

자동차 비유를 사용하여 질문한다면: 미래의 자동차에는 운전대가 없을 것이라고 믿습니까? 아니면 거기에 앉아서 주의를 기울이고 가끔 운전해야 하는 운전자가 있을 것이라고 믿습니까? 이상, Tesla 자율주행 기능이 현재 작동하는 방식과 유사합니까?

첫 번째 원칙: 내가 진실이라고 믿는 것

상황이 어디로 향하고 있는지에 대한 질문은 이것이 우리가 내리는 특정 결정에 큰 영향을 미칠 수 있기 때문에 Fabi.ai에서 우리에게 정말 중요합니다. 프런트 엔드에 차트 라이브러리를 통합하는 데 투자합니까? 포인트 앤 클릭 기능에 전혀 신경을 쓰지 않나요? AI 데이터 분석 분야를 선도하며 성장하고 있는 혁신적인 기업으로서 우리는 퍽이 현재 있는 곳이 아닌 어디로 가고 있는지 고민해야 합니다.

그래서 이 질문에 대답하기 위해 저는 몇 가지 첫 번째 원칙을 사용하겠습니다.

AI는 점점 더 좋아지고, 빨라지고, 저렴해지고 있다

처음 AI를 사용했을 때부터 속도와 비용에 대한 불만이 제기됐지만, AI는 계속해서 더 좋아지고, 빨라지고, 저렴해질 것이라고 믿었습니다. 대략적으로 말하면 토큰당 비용은 지난 몇 년 동안 연간 87% 감소했습니다. 비용이 절감되었을 뿐만 아니라 정확도와 속도도 크게 향상되었습니다.

앞으로 10년 동안 우리는 80년대와 90년대의 "슈퍼컴퓨터"를 되돌아보는 것과 같은 방식으로 2024 LLM을 되돌아볼 것입니다. 이제 우리는 어디를 가든지 주머니에 슈퍼컴퓨터를 가지고 있습니다.

하지만 위에서 언급한 다양한 차트 작성 접근 방식에 대한 찬반 주장은 AI가 차트를 생성하기에는 너무 느리거나 비용이 많이 들거나 부정확하다는 것이 될 수 없습니다. 즉, 포인트 앤 클릭 차트가 어떤 방식, 모양, 형태로든 여전히 존재한다고 믿으려면 사용자 경험이나 사용 사례에 해당 기능을 활용할 만한 무언가가 있다고 믿어야 합니다.

데이터 시각화에서 어려운 부분은 데이터 랭글링과 정리입니다.

내 경험상 시각화가 포함된 모든 형태의 데이터 분석을 수행할 때 어려운 부분은 차트 작성이 아닙니다. 어려운 부분은 내가 만들려는 차트에 적합한 형식으로 데이터를 정리하고 준비하는 것입니다.

다음 필드가 있는 일부 사용자 이벤트 데이터를 가정해 보겠습니다.

  • 이벤트 ID
  • 이벤트 시작 타임스탬프
  • 이벤트 종료 타임스탬프

이제 대기 시간을 측정하기 위해 평균 이벤트 기간을 시간별로 표시하고 싶다고 가정해 보겠습니다. 스프레드시트나 기존 차트 도구에서 어떤 종류의 차트를 작성하려면 먼저 다음을 수행해야 합니다.

  1. 종료 시간에서 시작 시간을 뺀 값을 계산하세요. (먼저 일종의 서식을 지정해야 할 것 같습니다.)
  2. 시간 단위로 데이터를 피벗하는 것은 실제로 놀라울 정도로 어렵습니다.

하지만 AI에게 이 작업을 요청하면 모든 작업과 차트 작성이 단 1~2초 만에 처리됩니다.

# Calculate the event duration in hours
df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600

# Extract the start hour from the start datetime
df['Start hour'] = df['Event start datetime'].dt.hour

# Group by start hour and calculate the average duration
average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index()

# Plot using Plotly
fig = px.bar(
    average_duration_by_hour, 
    x='Start hour', 
    y='Event duration (hours)',
    title='Average Event Duration by Hour',
    labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'},
    text='Event duration (hours)'
)

# Show the figure
fig.show()

그리고 이것은 가능한 가장 간단한 예 중 하나였습니다. 대부분의 경우 실제 데이터는 훨씬 더 복잡합니다.

AI 텍스트-시각화의 미래: 100% AI가 생성된 포인트 앤 클릭

이쯤 되면 내가 어느 쪽으로 기대고 있는지 감이 오실 겁니다. 분석에 필요한 모든 데이터가 포함된 대략적인 데이터 세트를 얻을 수 있는 한, AI는 이미 눈 깜짝할 사이에 데이터를 조작하고 차트로 작성하는 데 매우 능숙합니다. 앞으로 1년, 2년, 3년이 지나면 이것이 표준이 아닐 것이라고 상상하기 어렵습니다.

즉, Data Formulator와 같은 몇 가지 흥미로운 하이브리드 접근 방식이 등장하고 있습니다. 이러한 유형의 접근 방식에 대한 사례는 아마도 우리가 원하는 것을 생각하고 AI가 작업을 수행할 수 있도록 충분히 명확하게 설명하는 데 걸리는 것보다 우리의 손과 두뇌가 더 빠르게 움직여 신속하게 조정할 수 있다는 것입니다. 이것이 지역별로 분류된 누적 막대형 차트라는 가정 하에 "지난 12개월 동안 월별 총 매출을 보여주세요"라고 묻는다면 마우스를 움직여 보는 것이 더 쉬울 수도 있습니다. 그렇다면 하이브리드 접근 방식이 가장 흥미로울 수 있습니다. AI에게 먼저 시도해 보도록 요청한 다음 몇 번의 클릭만으로 원하는 결과를 얻을 수 있습니다.

완전한 AI 접근 방식이든 하이브리드 접근 방식이든 성공의 열쇠는 사용자 경험에 있습니다. 특히 하이브리드 접근 방식의 경우 AI와 인간의 상호 작용은 완벽하게 함께 작동해야 하며 사용자에게 놀라울 정도로 직관적이어야 합니다.

향후 12개월 동안 공간이 발전하고 텍스트-시각화를 통해 어디로 향할지 지켜볼 수 있어 기쁩니다.

릴리스 선언문 이 글은 https://dev.to/mfdupuis/the-future-of-ai-data-visualization-56oe?1 에서 복제되었습니다.1 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3