"일꾼이 일을 잘하려면 먼저 도구를 갈고 닦아야 한다." - 공자, 『논어』.
첫 장 > 프로그램 작성 > 데이터 시각화 기초

데이터 시각화 기초

2024-11-08에 게시됨
검색:878

Why use data vis

When you need to work with a new data source, with a huge amount of data, it can be important to use data visualization to understand the data better.
The data analysis process is most of the times done in 5 steps:

  1. Extract - Obtain the data from a spreadsheet, SQL, the web, etc.

  2. Clean - Here we could use exploratory visuals.

  3. Explore - Here we use exploratory visuals.

  4. Analyze - Here we might use either exploratory or explanatory visuals.

  5. Share - Here is where explanatory visuals live.

Types of data

To be able to choose an appropriate plot for a given measure, it is important to know what data you are dealing with.

Qualitative aka categorical types

Nominal qualitative data

Labels with no order or rank associated with the items itself.
Examples: Gender, marital status, menu items

Ordinal qualitative data

Labels that have an order or ranking.
Examples: letter grades, rating

Quantitative aka numeric types

Discrete quantitative values

Numbers can not be split into smaller units
Examples: Pages in a Book, number of trees in a park

Continuous quantitative values

Numbers can be split in smaller units
Examples: Height, Age, Income, Workhours

Summary Statistics

Numerical Data

Mean: The average value.
Median: The middle value when the data is sorted.
Mode: The most frequently occurring value.
Variance/Standard Deviation: Measures of spread or dispersion.
Range: Difference between the maximum and minimum values.

Categorical Data

Frequency: The count of occurrences of each category.
Mode: The most frequent category.

Visualizations

You can get insights to a new data source very quick and also see connections between different datatypes easier.
Because when you only use the standard statistics to summarize your data, you will get the min, max, mean, median and mode, but this might be misleading in other aspects. Like it is shown in Anscombe's Quartet: the mean and deviation are always the same, but the data distribution is always different.

In data visualization, we have two types:

  1. Exploratory data visualization We use this to get insights about the data. It does not need to be visually appealing.
  2. Explanatory data visualization This visualizations need to be accurate, insightful and visually appealing as this is presented to the users.

Chart Junk, Data Ink Ratio and Design Integrity

Chart Junk

To be able to read the information provided via plot without distraction, it is important to avoid chart junk. Like:

  • Heavy grid lines
  • Pictures in the visuals
  • Shades
  • 3d components
  • Ornaments
  • Superfluous texts Data Visualisation Basics

Data Ink Ratio

The lower your chart junk in a visual is the higher the data ink ratio is. This just means the more "ink" in the visual is used to transport the message of the data, the better it is.

Design Integrity

The Lie Factor is calculated as:

$$
\text{Lie Factor} = \frac{\text{Size of effect shown in graphic}}{\text{Size of effect in data}}
$$

The delta stands for the difference. So it is the relative change shown in the graphic divided by the actual relative change in the data. Ideally it should be 1. If it is not, it means that there is some missmatch in the way the data is presented and the actual change.

Data Visualisation Basics
In the example above, taken from the wiki, the lie factor is 3, when comparing the pixels of each doctor, representing the numbers of doctors in California.

Data Visualisation Basics

Tidy data

make sure you're data is cleaned properly and ready to use:

  • each variable is a column
  • each observation is a row
  • each type of observational unit is a table

Univariate Exploration of Data

This refers to the analysis of a single variable (or feature) in a dataset.

Bar Chart

  • always plot starting with 0 to present values in real comparable way.
  • sort nominal data
  • don't sort ordinal data - here it is more important to know how often the most important category appears than the most frequent
  • if you have a lot of categories use a horizontal bar chart: having the categories on the y-axes, to make it better readable. Data Visualisation Basics

Data Visualisation Basics

Data Visualisation Basics

Data Visualisation Basics

Histogram

  • quantitative version of a bar chart. This is used to plot numeric values.
  • values are grouped into continous bins, one bar for each is plotted Data Visualisation Basics

KDE - Kernel Density Estimation

  • often a Gaussian or normal distribution, to estimate the density at each point.
  • KDE plots can reveal trends and the shape of the distribution more clearly, especially for data that is not uniformly distributed. Data Visualisation Basics

Pie Chart and Donut Plot

  • data needs to be in relative frequencies
  • pie charts work best with 3 slices at maximum. If there are more wedges to display it gets unreadable and the different amounts are hard to compare. Then you would prefer a bar chart. Data Visualisation Basics

BiVariate Exploration of Data

Analyzes the relationship between two variables in a dataset.

Clustered Bar Charts

  • displays the relationship between two categorical values. The bars are organized in clusters based on the level of the first variable. Data Visualisation Basics

Scatterplots

  • each data point is plotted individually as a point, its x-position corresponding to one feature value and its y-position corresponding to the second.
  • if the plot suffers from overplotting (too many datapoints overlap): you can use transparency and jitter (every point is moved slightly from its true value) Data Visualisation Basics

Heatmaps

  • 2d version of a Histogram
  • data points are placed with its x-position corresponding to one feature value and its y-position corresponding to the second.
  • the plotting area is divided into a grid, and the numbers of points add up there and the counts are indicated by color Data Visualisation Basics

Violin plots

  • show the relationship between quantitative (numerical) and qualitative (categorical) variables on a lower level of absraction.
  • the distribution is plotted like a kernel density estimate, so we can have a clear
  • to display the key statistics at the same time, you can embedd a box plot in a violin plot. Data Visualisation Basics

Box plots

  • it also plots the relationship between quantitative (numerical) and qualitative (categorical) variables on a lower level of absraction.
  • compared to the violin plot, the box plot leans more on the summarization of the data, primarily just reporting a set of descriptive statistics for the numeric values on each categorical level.
  • it visualizes the five-number summary of the data: minimum, first quartile (Q1), median (Q2), third quartile (Q3), and maximum.

Key elements of a boxplot:
Box: The central part of the plot represents the interquartile range (IQR), which is the range between the first quartile (Q1, 25th percentile) and the third quartile (Q3, 75th percentile). This contains the middle 50% of the data.

Median Line: Inside the box, a line represents the median (Q2, 50th percentile) of the dataset.

Whiskers: Lines extending from the box, known as "whiskers," show the range of the data that lies within 1.5 times the IQR from Q1 and Q3. They typically extend to the smallest and largest values within this range.

Outliers: Any data points that fall outside 1.5 times the IQR are considered outliers and are often represented by individual dots or marks beyond the whiskers.
Data Visualisation Basics

Combined Violin and Box Plot

The violin plot shows the density across different categories, and the boxplot provides the summary statistics
Data Visualisation Basics

Faceting

  • the data is divided into disjoint subsets, most often by different levels of a categorical variable. For each of these subsets of the data, the same plot type is rendered on other variables, ie more histograms next to each other with different categorical values. Data Visualisation Basics

Line plot

  • used to plot the trend of one number variable against a seconde variable. Data Visualisation Basics

Quantile-Quantile (Q-Q) plot

  • is a type of plot used to compare the distribution of a dataset with a theoretical distribution (like a normal distribution) or to compare two datasets to check if they follow the same distribution. Data Visualisation Basics

Swarm plot

  • Like to a scatterplot, each data point is plotted with position according to its value on the two variables being plotted. Instead of randomly jittering points as in a normal scatterplot, points are placed as close to their actual value as possible without allowing any overlap. Data Visualisation Basics

Spider plot

  • compare multiple variables across different categories on a radial grid. Also know as radar chart. Data Visualisation Basics

Useful links

My sample notebook

Sample Code

Libs used for the sample plots:

  • Matplotlib: a versatile library for visualizations, but it can take some code effort to put together common visualizations.
  • Seaborn: built on top of matplotlib, adds a number of functions to make common statistical visualizations easier to generate.
  • pandas: while this library includes some convenient methods for visualizing data that hook into matplotlib, we'll mainly be using it for its main purpose as a general tool for working with data (https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).

Further reading:

  • Anscombes Quartett: Same stats for the data, but different distribution: https://en.wikipedia.org/wiki/Anscombe's_quartet
  • Chartchunk: https://en.wikipedia.org/wiki/Chartjunk
  • Data Ink Ratio: https://infovis-wiki.net/wiki/Data-Ink_Ratio
  • Lie factor: https://infovis-wiki.net/wiki/Lie_Factor
  • Tidy data: https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
  • Colorblind-friendly visualizations: https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together
릴리스 선언문 이 기사는 https://dev.to/barbara/data-visualisation-basics-2moa?1에서 복제됩니다.1 침해 내용이 있는 경우, [email protected]으로 연락하여 삭제하시기 바랍니다.
최신 튜토리얼 더>
  • 어떤 각도에서든 이미지를 회전할 수 있는 React Hook 만들기
    어떤 각도에서든 이미지를 회전할 수 있는 React Hook 만들기
    웹 개발 시 이미지 회전이 필요할 수 있는데, 이는 CSS에서 쉽게 수행할 수 있습니다. 다음 변환과 같은 간단한 코드:rotate(90deg);. 하지만 JS에서 하고 싶다면 어떻게 해야 할까요? TLDR 브라우저 환경에서 캔버스에 이미지를 그려서 회전...
    프로그램 작성 2024-11-08에 게시됨
  • Lithe의 미들웨어: 작동 방식 및 자신만의 미들웨어를 만드는 방법
    Lithe의 미들웨어: 작동 방식 및 자신만의 미들웨어를 만드는 방법
    미들웨어는 애플리케이션에 들어오는 HTTP 요청을 검사하고 필터링하기 위한 편리한 메커니즘을 제공합니다. 예를 들어 Lithe에는 사용자가 인증되었는지 확인하는 미들웨어가 포함되어 있습니다. 그렇지 않은 경우 미들웨어는 사용자를 로그인 화면으로 리디렉션합니다. 사용자가...
    프로그램 작성 2024-11-08에 게시됨
  • JavaScript에서 반복되는 요소로 배열을 만드는 방법은 무엇입니까?
    JavaScript에서 반복되는 요소로 배열을 만드는 방법은 무엇입니까?
    JavaScript의 반복 요소 배열여러 번 반복되는 동일한 요소가 있는 배열을 만드는 것은 다양한 프로그래밍 시나리오에서 필수적입니다. Python에서는 [2] * 5와 같이 목록 곱셈을 통해 이를 달성할 수 있습니다. 그러나 이 기능은 JavaScript 배열에서 ...
    프로그램 작성 2024-11-08에 게시됨
  • ## MySQL의 LIKE와 LOCATE: 성능 측면에서 왕이 되는 연산자는 무엇입니까?
    ## MySQL의 LIKE와 LOCATE: 성능 측면에서 왕이 되는 연산자는 무엇입니까?
    MySQL LIKE 대 LOCATE 성능 비교MySQL에서 데이터를 검색할 때 LIKE와 LOCATE 중 어느 연산자가 더 효율적인지 궁금할 수 있습니다. 이 문서에서는 이 두 연산자 간의 성능 차이를 살펴봅니다.일반적인 사용 시나리오에서 LIKE는 LOCATE보다 약...
    프로그램 작성 2024-11-08에 게시됨
  • PHP를 사용하여 양식 데이터로 여러 MySQL 행을 업데이트하는 방법은 무엇입니까?
    PHP를 사용하여 양식 데이터로 여러 MySQL 행을 업데이트하는 방법은 무엇입니까?
    양식 데이터로 여러 MySQL 행 업데이트웹 개발에서는 사용자가 데이터베이스의 레코드를 편집할 수 있는 양식을 갖는 것이 일반적입니다. 일반적인 시나리오는 동일한 테이블의 여러 행을 수정된 데이터로 업데이트하는 것입니다. 이는 PHP와 MySQL을 사용하여 수행할 수 ...
    프로그램 작성 2024-11-08에 게시됨
  • Go에서 문자열에 []바이트를 할당할 수 없는 이유는 무엇입니까?
    Go에서 문자열에 []바이트를 할당할 수 없는 이유는 무엇입니까?
    바이트 할당 오류 이해: []바이트를 문자열에 할당할 수 없습니다.폴더 내의 파일을 읽으려고 시도하는 중에 오류가 발생했습니다. 파일의 내용을 읽으려고 할 때 "다중 할당에서 []바이트를 z(유형 문자열)에 할당할 수 없습니다." 이 오류의 원인을 자...
    프로그램 작성 2024-11-08에 게시됨
  • React 및 Typescript를 사용하여 사용자 정의 테이블 구성 요소를 만드는 방법(2부)
    React 및 Typescript를 사용하여 사용자 정의 테이블 구성 요소를 만드는 방법(2부)
    소개 예! ? 두 부분으로 구성된 이 시리즈의 마지막 부분에 도달했습니다! 아직 파트 1을 확인하지 않으셨다면 여기서 잠시 멈추고 먼저 파트 1을 살펴보세요. 걱정하지 마세요. 당신이 돌아올 때까지 기다리겠습니다! ? 1부에서는 CustomTable 구...
    프로그램 작성 2024-11-08에 게시됨
  • TypeScript 및 ioredis를 사용하여 Node.js에서 고성능 캐시 관리자 구축
    TypeScript 및 ioredis를 사용하여 Node.js에서 고성능 캐시 관리자 구축
    ioredis에 구축된 다용도의 사용하기 쉬운 캐시 관리자로 Node.js 앱 성능을 향상하세요. 캐싱을 단순화하고, 효율성을 최적화하고, 운영을 간소화하세요. 저는 사용 편의성과 성능에 중점을 두고 필요에 따라 ioredis를 기반으로 구축된 클래스를 개발했습니다. ...
    프로그램 작성 2024-11-08에 게시됨
  • 슈퍼클래스 참조 및 하위클래스 객체
    슈퍼클래스 참조 및 하위클래스 객체
    자바는 강력한 형식의 언어입니다. 기본 유형에는 표준 변환 및 자동 승격이 적용됩니다. 유형 호환성은 엄격하게 적용됩니다. 일반적으로 한 클래스의 참조 변수는 다른 클래스의 객체를 참조할 수 없습니다. 클래스 X와 Y가 구조적으로 동일하더라도 유형이 다르기 때문에 X...
    프로그램 작성 2024-11-08에 게시됨
  • Flexbox에서 flex-grow와 width는 어떻게 다릅니까?
    Flexbox에서 flex-grow와 width는 어떻게 다릅니까?
    Flexbox에서 flex-grow와 너비의 차이점Flexbox는 요소 간에 공간을 분배하는 두 가지 기본 방법인 flex-grow와 너비를 제공합니다. 효과적인 Flexbox 사용을 위해서는 이러한 속성 간의 차이점을 이해하는 것이 중요합니다.Flex-grow 대 너...
    프로그램 작성 2024-11-08에 게시됨
  • 양식 레이블과 입력을 같은 줄에 수평으로 정렬하는 방법은 무엇입니까?
    양식 레이블과 입력을 같은 줄에 수평으로 정렬하는 방법은 무엇입니까?
    양식 레이블의 수평 배치 및 동일한 행에 입력 달성웹 개발에서 양식의 미학은 사용자 경험에 매우 중요합니다. 레이블과 입력 필드를 같은 줄에 배열하면 양식의 가독성과 유용성을 향상시킬 수 있습니다. 이 문서에서는 길이에 관계없이 입력 요소를 해당 레이블과 원활하게 정렬...
    프로그램 작성 2024-11-08에 게시됨
  • 재귀 -1
    재귀 -1
    소개 1 함수가 자신을 호출하는 과정을 재귀라고 하며 해당 함수를 재귀 함수라고 합니다. 컴퓨터 프로그래밍은 수학의 기본적인 응용이므로 먼저 재귀 뒤에 숨어 있는 수학적 추론을 이해하려고 노력합니다. 일반적으로 우리 모두는 함수의 개념을 알고 있습니다...
    프로그램 작성 2024-11-08에 게시됨
  • Go API에 로깅 및 오류 처리 미들웨어 추가
    Go API에 로깅 및 오류 처리 미들웨어 추가
    빠른 참고: JWT 인증에 대한 이전 게시물을 확인하고 일부 렌더링 문제를 발견했다면 이제 해당 문제가 해결되었습니다! 이 예제는 해당 튜토리얼을 기반으로 구축되었으므로 다시 한 번 살펴보시기 바랍니다. :) 자 여러분, Go API를 실행하고 JWT 인증을 추가했으며...
    프로그램 작성 2024-11-08에 게시됨
  • Tensorflow 음악 예측
    Tensorflow 음악 예측
    이 글에서는 텐서플로우를 사용하여 음악 스타일을 예측하는 방법을 보여줍니다. 제 예에서는 테크노와 클래식 음악을 비교합니다. 내 Github에서 코드를 찾을 수 있습니다. https://github.com/victordalet/sound_to_partition ...
    프로그램 작성 2024-11-08에 게시됨
  • useEffect 후크 설명
    useEffect 후크 설명
    useEffect 후크는 React의 기본 부분으로, 기능적 구성 요소에서 부작용을 수행할 수 있도록 해줍니다. 자세한 내용은 다음과 같습니다. useEffect란 무엇인가요? useEffect 후크를 사용하면 구성 요소에서 데이터 가져오기, 구독 또는 ...
    프로그램 작성 2024-11-08에 게시됨

부인 성명: 제공된 모든 리소스는 부분적으로 인터넷에서 가져온 것입니다. 귀하의 저작권이나 기타 권리 및 이익이 침해된 경우 자세한 이유를 설명하고 저작권 또는 권리 및 이익에 대한 증거를 제공한 후 이메일([email protected])로 보내주십시오. 최대한 빨리 처리해 드리겠습니다.

Copyright© 2022 湘ICP备2022001581号-3