데이터 시각화란? 좋은 데이터 시각화의 조건과 요소

데이터 시각화란? 좋은 데이터 시각화의 조건과 요소 데이터 시각화란? 좋은 데이터 시각화의 조건과 요소

데이터 시각화의 정의

데이터 시각화는 많은 양의 정보를 그래픽 형태로 표현하여 인간이 직관적으로 이해할 수 있도록 돕는 기술입니다. 인간의 감각 체계 중 시각 체계는 비교적 복잡하고 많은 양의 정보를 빠르게 받아들일 수 있어 필요한 작업을 하는데 필요한 의사결정을 신속하게 해줍니다. 정보의 복잡성을 단순화하고, 숨겨진 패턴, 추세, 그리고 상관관계를 드러내는 데 중요한 역할을 합니다.

행복의 순간을 나타내는 그래프를 예시로 볼까요? 원본 데이터는 사람이 구술한 문장들입니다. ‘나는 어제 영화를 봤어.’ 라는 문장으로부터 ‘나’ ‘영화’ ‘보다’ 라는 정보로 분류합니다. 영어이기 때문에 주어, 동사, 목적어의 영역으로 직관적으로 분류됩니다. 행복한 순간을 느끼는 것이 어디서 출발하고, 어떤 행동을 했을 때(또는 느꼈을 때) 주로 행복하고 어떤 목적과 대상이 연결되어 있는지 그래프로 시각적으로 파악할 수 있습니다. 문장으로 쭉 나열된 원 데이터에서 주어 – 동사 – 목적어 연결성과 단어의 빈도를 이보다 빠르게 파악할 수 있을까요? 시각적으로 전달된 아래 그래프보다 빠르고 직관적으로 파악할 수 없을 것입니다.

flowingdata.com, Moments of Happiness

좋은 데이터 시각화의 조건

시각화의 목적을 정하자

동일한 원 데이터로 시각화를 할 때 그 결과는 항상 똑같지 않습니다. 그 이유는 시각화를 통해 이루고자 하는 목표가 다르기 때문인데요. 시각화의 목적은 데이터로부터 결정되는 경우보다는 외부에서 결정될 때가 많습니다. 목표를 우선 규정하고 그에 맞는 데이터를 수집하고 정제하여 가장 적합한 표현 방법을 찾아야 합니다.

어떤 웹사이트 A가 있다고 해볼게요. 검색엔진최적화(SEO) 관점에서 웹사이트 A로 들어오는 자연유입이 저조한 상황입니다. ‘자연유입이 저조하다’는 판단은 여러가지 이유에서 나올 수 있을 텐데요. 1. 광고 트래픽에 비해서 자연유입 비중이 낮다 2. 원래 어느정도 수준이었던 자연유입이 시간이 갈 수록 점점 떨어지고 있다. 3. 경쟁사 대비 검색엔진 결과화면에서 순위가 낮게 나온다 등등 여러 요인이 있을 것입니다. 이슈를 발견하는 과정에서도 데이터 시각화가 역시 중요하고 확보할 데이터를 정확히 정해야 합니다. 1. 광고 트래픽과 비교해서 본다면 광고 트래픽에 대한 기간 원데이터도 확보해야 하고, 2. 자연유입을 결정짓는 여러 지표들을 수집한 데이터가 필요하며, 3. 경쟁사 순위와 스니펫이 포함된 검색결과 데이터가 있어야 합니다.

좀더 간단한 예시로 고등학교에서의 교우관계 그래프를 봐볼게요.(R ggraph, highschool dataset) 친한 친구가 4명 이상인 점들이 보라색으로 표시되어 있는데요. 고등학교에서의 교우 관계가 어떻게 형성되는지 확인하기 위한 목적에 따라 한눈에 파악하기 위한 네트워크 그래프를 사용하여 데이터를 표현한 예입니다.

R, ggraph, highschool 네트워크 그래프 (연결성 4 이상)

시각화 방법 찾기 : 선, 색, 모양, 질감이 생각보다 중요합니다

시각화의 목적과 어떻게 데이터를 수집하고 어떤 데이터를 나타낼 것인지가 결정이 되면 가장 알맞는 시각화 방법을 찾습니다. 아래 예시 시각화 그래프는 gapminder의 인구별 소득수준을 나타내는 그래프입니다. 아시아는 핑크색으로, 아프리카는 파란색으로 표시하였고 각 색깔의 면적은 대륙의 인구 수준을 보여줍니다. x축은 소득을 나타냅니다. x축의 오른쪽으로 이동할 수록 소득은 늘어납니다. 1970년도와 비교하여 2022년도에 아시아 국가의 소득 수준이 크게 향상되었고 인구 역시 급격히 늘어난 것을 확인할 수 있습니다. 아프리카의 경우 작았던 인구가 크게 늘어났고 소득도 상당수 늘어난 것으로 보입니다.

이처럼 적절한 시각화 방법을 사용할 경우 여러 차원의 데이터를 효율적이고 직관적으로 확인할 수 있습니다.

www.gapminder.org, population by income, 1970
www.gapminder.org, population by income, 2022

데이터 시각화 요소 : 원형과 채널

데이터를 시각화할 때 점, 선, 면과 같은 원형이 있고 그 원형의 정도를 조정하는 것을 채널이라고 합니다. 양적인 정보를 전달할 때에는 크기를 주로 조정하게 됩니다. 크기처럼 양적인 정보를 나타낼 때 쓰이는 채널은 위치, 명도, 채도, 각도, 깊이 등이 있습니다.

양적인 정보가 아닌 데이터의 특성을 구분하거나 범주를 나타낼 때 아이덴티티 채널을 사용합니다. 색상, 모양, 위치 등이 있습니다. 주목할 점은 어떤 원형을 선택하여 표현하느냐에 따라 각 원형에 사용할 수 있는 채널의 종류가 한정된다는 것입니다. 예를 들어 점을 선택할 경우 각각의 점을 색상, 크기, 모양으로 변형하여 나타낼 수는 있지만 점의 원형적 한계로 인하여 각도나 곡률을 나타낼 수는 없습니다.

또한 시각화를 할 때, 특히 비교를 목적으로 시각화 할 경우 원데이터의 정보를 반영할 수 있도록 유의해야 합니다. 사람들은 절대적인 차이보다 상대적인 차이에 더 민감하게 반응하는 경우가 있습니다. 뉴스에 왜곡된 그래프라고 해서 비판받는 그래프들을 종종 볼 수 있는데요. 아래 예시처럼 동일한 그래프라도 왼쪽의 차이가 선명하게 그려지는 그래프를 볼 때 사람들은 더 인상깊게 인식하게 됩니다.

wikipedia.org,
동일한 데이터를 사용한 잘린 그래프(왼쪽)와 전체 크기 그래프(오른쪽)의 예

데이터 시각화

엑셀, Tableau, Power BI 등 실무에 활용할 수 있는 너무나 유명한 여러 툴이 있는데요. 이번에는 어센트에서 사용하고 있는 리스닝마인드 허블을 소개하고 글을 마무리해보려고 합니다.

리스닝마인드 허블은 데이터를 시각화해주는 기능에 초점이 맞춰있다기보다 주기적으로 수집하는 방대한 검색 데이터(네이버, 구글)에서 소비자의 행동 인사이트를 시각적으로 빠르게 추출해주는 데 강점이 있는 툴입니다.

인텐트 파인더 기능 : 검색어 또는 토픽에 연관된 검색 데이터를 시계열로 확인하여 시즈널리티, 대략적인 검색량과 키워드 수, 데모그래픽 정보를 파악할 수 있습니다.

패스 파인더 기능 : 소비자는 어떤 의사결정까지 어떤 경로로 움직일까? 소비자의 검색 경로를 분석합니다. 자사의 제품 브랜드를 검색하기 이전과 이후에 어떤 키워드를 검색했는 지를 경로 추출하고 구매의향이 강한 상업형, 거래형 키워드를 확인할 수 있습니다.

이 외에도 GPT 분석, 검색어 클러스터링 등 시각화를 기반으로 인사이트 추출이 용이한 여러 기능이 있습니다.


참고 문서 :

  • https://en.wikipedia.org/wiki/Misleading_graph
  • 박서영, 이긍희. (2023). 데이터 시각화