‘데이터 설명’으로 더 빠르게 얻는 인사이트

By Scott Teal- September 17, 2019

데이터 분석을 흥미로운 스토리로 전환하면 활기를 북돋울 수 있지만, 때로는 흥미로운 인사이트를 얻지 못한 채 데이터의 탐색과 이해에 머물 수 있습니다.

누구나 꿈을 꿔봤을 법한, 모든 열과 행이 완벽하게 깨끗하고 아름답게 구성된 데이터 집합을 발견했다고 가정해 보겠습니다. 어떻게 하면 흥미로운 스토리를 발견할 수 있을까요? 아마도 다음과 같이 탐색할 것입니다.

  1. 막대 차트를 만들어 각 변수의 데이터 분포를 하나씩 확인(일변량 분석).
  2. 분산형 차트를 만들어 변수 사이의 관계를 확인(이변량 분석). 운이 좋으면 강력한 상관 관계를 찾을 수 있습니다.
  3. 패턴, 추세 또는 이상값을 찾습니다. 좋습니다! 흥미로운 이상값이 보이는 것을 발견했습니다! 그런데 이 이상값의 원인은 무엇일까요?

‘데이터 설명’ 소개

‘데이터 설명’은 Tableau 2019.3의 새로운 AI 기반 기능으로, 데이터 탐색을 지원하여 '무엇'에서 '왜'로 빠르게 이동하도록 도와줍니다. 또한 선택한 마크에 대한 통계적 설명을 제공하고 추가 탐색을 위해 열 수 있는 비주얼리제이션을 제시합니다.


예: 집값이 높은 이유는 무엇일까요?

주택 가격에 대한 사례를 통해 ‘데이터 설명’을 사용하는 방법을 살펴보겠습니다. 시애틀 주택 시장에 대한 스토리를 만들기 위해 kaggle.com에서 King County 주택 판매 가격에 대한 데이터 집합을 다운로드했습니다. 여기에는 다음과 같은 각 집에 대한 많은 정보가 포함되어 있습니다.

  • ID: 집에 대한 표기
  • 날짜: 집이 판매된 날짜
  • 가격: 예측 가격
  • 침실: 침실 수/집
  • 화장실: 화장실 수/집
  • 거주 면적: 집의 면적
  • 로프트 면적: 부지의 면적
  • : 집의 총 층수(레벨)
  • 해안가 조망권: 해안가 조망권이 있는 집
  • 조회: 조회수
  • 상태: 집의 상태
  • 등급 King County 등급 시스템을 기준으로 한 전체 등급
  • 상층 면적: 지하실을 제외한 면적
  • 지하실 면적: 지하실의 면적
  • 준공 연도: 집을 준공한 해
  • 리모델링 연도: 집을 리모델링한 해
  • 우편번호: 집 위치의 우편번호
  • 위도: 집 위치의 위도
  • 경도: 집 위치의 경도
  • Living15 면적: 2015년 거주 면적
  • Lot15 면적: 2015년 부지 면적

데이터는 CSV 형식이므로, Tableau Desktop Public Edition에서 텍스트 파일로 열겠습니다. '날짜' 필드가 날짜 및 시간 데이터 형식으로 변환되었는지 확인하고, 모든 카테고리화된 필드를 측정값으로 변경합니다.

이제, 우편번호를 기준으로 주택 가격이 가장 높은 곳을 살펴보겠습니다. 이를 위해 '우편번호'를 두 번 클릭하고, 차트 유형을 맵으로 변경하고, '가격'을 색상으로 드래그한 다음, 가격 집계를 평균으로 변경합니다. 작성된 맵은 우편번호 98039 지역의 주택이 평균 216만 달러로 가장 비싸다는 것을 보여줍니다.

그런데 이 우편번호 지역의 집값이 그렇게 높은 이유는 무엇일까요? 해안가 조망권을 보유한 지역 특성 때문일까요? 아니면 이 우편번호 지역의 주택이 더 크기 때문일까요? 이런 경우에 ‘데이터 설명’을 사용할 수 있습니다. 우편번호 98039를 클릭하면 도구 설명에 전구 모양 아이콘이 나타납니다. 해당 아이콘을 클릭하면, AI를 사용하여 이 우편번호 지역에서 주택 가격이 오르는 잠재적인 이유에 대한 설명을 제공하는 ‘데이터 설명’이 표시됩니다. 이 사례에서, 우편번호 98039 지역의 주택은 다른 우편번호 지역의 주택보다 등급이 더 높고 침실, 화장실 및 조회수가 더 많은 경향이 있으며, 이로 인해 평균 주택 가격이 상승했을 수 있습니다.

무료로 체험해 보십시오! ‘데이터 설명’은 Tableau Desktop 2019.3과 웹 편집 모두에서 사용할 수 있습니다. Tableau Desktop 2019.3을 다운로드하고 자신의 다음번 데이터 스토리를 만들어 보십시오.

Tableau 2019.3은 ‘데이터 설명’을 비롯하여 매개 변수 작업 개선 및 이탈리아어 제품 언어 지원을 포함한 더 많은 기능을 제공합니다. Tableau 커뮤니티 회원은 자신이 즐겨 사용하는 기능을 해시태그 #(TBD)로 Twitter에서 공유하고 있습니다. 지금 해시태그 #(TBD)를 사용하여 좋아하는 기능을 공유해 보십시오.