안녕하세요, BALL 입니다!
오늘은 데이터를 시각화하는 ‘태블로’의 두 번째 이야기로 찾아왔습니다.
여러분, 혹시 Tableau Prep Builder에 대해 들어보셨나요?
'Tableau Desktop만 있으면 데이터 시각화에 문제 없다!'라고 생각하실 수 있지만,
우리가 사용하는 데이터는 늘 사용하기 쉽게 잘 정리되어 있는 건 아니라는 것, 많이 경험하셨죠?
공공데이터 포털이나 기타 다른 사이트에서 다운받는 데이터는
분석에 적합한 형태가 아닐 수 있습니다.
예) 셀이 병합되어 있는 경우, 데이터 정렬이 열 방향인 경우 등
태블로가 데이터를 정상적으로 인식하지 못할 수 있기 때문에 사전작업이 필요합니다.
분석 전 데이터를 전처리하기 위해서 엑셀에서 직접 편집하거나
R, 파이썬 등의 프로그래밍 언어를 활용할 수 있는데요
태블로에도 쉽게 데이터를 전처리 할 수 있는 도구가 있습니다.
Tableau Prep Builder는 태블로로 데이터를 시각화하기에 앞서
분석하기 좋은 형태로 데이터를 전처리하는 도구입니다.
태블로 프렙(Tableau Prep)을 사용하면 무엇이 좋을까요?
1) 드래그 앤 드롭(Drag&Drop)으로 간편하게 작업 가능!
→ 눈으로, 손으로 바로 데이터 작업을 볼 수 있기 때문에 직관적
2) 전처리, 결합, 정리, 변형 등 데이터를 자유롭게 활용하는 스마트한 기능!
따라서, 오늘 살펴볼 프렙의 주요 기능은 다음 세 가지 입니다.
1. 데이터 해석기 & 프렙
2. 유니온
3. 조인
그럼 '데이터 해석기 사용'과 '피벗' 기능을 활용해서 데이터를 전처리하는 방법부터 살펴볼까요?
1. 데이터 해석기 & 프렙 기본 기능 사용하기
먼저 태블로 프렙에 데이터를 연결해보겠습니다.
태블로 프렙의 시작 화면은 다음과 같습니다.
여기서 '데이터에 연결'을 클릭해주면
태블로와 마찬가지로 연결 가능한 파일 종류의 리스트가 나옵니다.
원하는 파일 형태를 선택하고 파일을 선택해주면
전처리를 할 준비가 완료됩니다!
전처리에 앞서 먼저 데이터의 형태를 살펴볼까요?
데이터는 태블로 굿모닝 굿애프터눈에서 제공하는 [시도_합계 출산율_1993-2018.xlsx] 데이터를 사용했습니다.
(데이터 다운로드 : https://github.com/bjpublic/tableau)
[시도_합계 출산율_1993-2018.xlsx] 데이터는
사람이 보기 편한 형태로 [시도별] 셀과 연도를 나타내는 셀들이 병합되어 있고
데이터 정렬이 열 방향으로 되어있습니다.
이 경우 태블로는 다음과 같이 데이터를 제대로 인식하지 못해
위 화면처럼 우리가 분석에서 원하는 필드를 생성하지 못할 수 있습니다.
그렇다면 먼저 '데이터 해석기 사용' 기능을 사용해볼까요?
태블로처럼 태블로 프렙에도 ‘데이터 해석기 사용’이 있습니다.
우선 데이터 해석기를 사용해 데이터를 정리해줍니다.
프렙에서는 데이터 전처리를 위해 집계, 피벗, 조인, 유니온 등의 기능을 제공하고 있습니다.
열 방향으로 된 데이터를 행 방향으로 전환하기 위해서 ‘피벗’ 기능을 활용해보겠습니다.
먼저 ‘정리 단계’를 선택해 단계를 추가해줍니다.
그리고 ‘피벗’을 선택한 후 피벗하려는 필드를 선택해 ‘피벗된 필드’ 창에 드래그 앤 드롭합니다.
피벗된 필드를 원하는 형태로 분할하고 편집하면 데이터 전처리가 완료됩니다.
이제 전처리한 데이터를 태블로로 가져가볼까요?
테이블 우측에 +버튼을 눌러 ‘출력’을 선택한 후 ‘흐름 실행’ 버튼을 누르면
hyper 형태의 태블로 파일로 추출이 됩니다.
이 파일을 태블로에서 열면 데이터 분석&시각화를 할 준비가 완료됩니다!
데이터 해석기와 프렙 기능에 대해 알아보았습니다.
2. 유니온 사용하기
그렇다면, 유니온과 조인에 대해서도 알아봅시다.
복잡해보일 수 있지만 실제로 따라오시면 왜 쉽고 직관적이라고 하는지 이해하실 수 있을거예요~


저는 [superstore 주문 2016~2019 데이터]를 활용해서 보여드리겠습니다.
주문_2017 시트를 주문_2016 시트 위에 올리면 왼쪽의 사진처럼 보이는데요!
이때, 유니온에 올려주면 오른쪽 사진처럼 두 데이터가 유니온1로 결합됩니다.
여기서, 유니온이란 무엇일까요?
유니온은 같은 구조를 가진 여러 개의 테이블을 하나의 테이블로 합치는 것을 말합니다.
즉, 필드명/필드개수/필드의 데이터 유형이 동일할 때 유니온으로 결합을 할 수 있습니다.
주문_2016과 주문_2017이 결합된 유니온에 주문_2017, 주문_2018을 추가해주면
오른쪽 사진과 같은 결과가 나옵니다.
드래그 앤 드롭이 쉽고, 직관적으로 확인할 수 있어 깔끔하다는 게
무슨 뜻인지 잘 아시겠죠?
그런데 주의해야 할 사항이 있습니다!
앞서 유니온은 같은 구조를 가진 여러 개의 테이블을 결합하는 것이라고 했죠.
그런데 결과 필드를 보면 4개의 불일치 필드가 있다고 뜹니다.
할인과 이익을 보면 핑크색 사각형으로 따로 표시가 되어있는 걸 확인할 수 있습니다.
즉, 할인율=할인, 수익=이익인데 필드명이 달라서 불일치 필드로 분류가 된 것이예요 ~
이럴 땐 구조가 같은 필드를 선택해서 병합하면 됩니다.
할인율과 할인을 선택해서 병합하고, 수익과 이익을 선택해서 병합하면
모든 필드가 일치하게 되겠죠!
이렇게 정리하는 과정이 필요합니다.
다음 기능으로 넘어가볼까요?
3. 조인 사용하기
슈퍼스토어_반품 시트를 추가해주었는데요!
이 시트를 결합되어있는 유니온에 올려주고, 이번에는 “조인”에 올려보겠습니다.

이렇게 ‘유니온1’과 ‘슈퍼스토어_반품’ 데이터가 “조인”이 되었습니다!
그렇다면 조인은 무엇일까요?
조인은 공통적인 필드에서 관련된 데이터를 결합하는 작업입니다.
쉽게 말해서, 겹치는 필드가 있을 때 조인 기능을 활용할 수 있습니다.
위 예시에서 주문 시트에는 반품 필드도 포함되어있는데요,
따라서 반품 필드만 있는 ‘슈퍼스토어_반품’과 주문 시트들이 조인이 가능하겠죠!

조인 결과를 확인해보면, 적용된 조인 절은 ‘주문번호’로 같고, 조인유형은 ‘안쪽’인 걸 볼 수 있습니다.
결과 요약에도 나와 있지만, 벤다이어그램을 보면 더욱 쉽죠?
겹치는 부분, 즉 반품된 결과들만 조인되었다는 뜻입니다.







조인 유형은 매우 다양한데요, 원하는 범위를 클릭만 하면 유형을 바꿀 수 있습니다.
여기서 잠시 퀴즈 !
Q. 만약 유니온한 4개 테이블 중에서 반품 여부와 상관없이 모든 행을 포함하고자 한다면
조인 유형을 어떻게 설정해야 할까요?

바로, Left(왼쪽) 조인입니다!
이렇게 왼쪽 조인을 하게 되면 유니온 1의 조인 결과 제외되는 행 없이 총 11,000행이 포함됩니다.


위 그림은 ‘관리자’ 시트까지 조인에 추가하여 새 조인을 만들어준 결과입니다.
오른쪽 마우스를 클릭하면 Tableau Desktop에서 미리보기 기능을 활용할 수도 있고,
위의 전처리 과정에서 본 것과 동일하게
플러스 버튼을 누르면 ‘출력’기능을 사용해 Excel파일로 저장할 수도 있습니다.
지금까지 Prep의 데이터 전처리, 유니온, 조인 기능에 대해 알아보았습니다.
이렇게 Prep을 활용해서 데이터를 드래그 앤 드롭만으로 쉽고 간편하게 결합하고 정리한 뒤에
태블로 데스크탑에서 작업하면 데이터에 오류도 없고 훨씬 더 빠르겠죠?
태블로 프렙 외에도 태블로 클라우드, 태블로 서버, 태블로 데이터 매니지먼트 등 다양한 도구가 있습니다.
다양한 태블로 툴을 활용하여 데이터 시각화 고수가 되시길 바랍니다!
그럼 저희는 다음에 또 유익한 내용으로 찾아뵙겠습니다 :)
'데이터 분석 공부' 카테고리의 다른 글
SQL 입문 , 데이터베이스에 대해 알아보자. (1) | 2023.10.01 |
---|---|
맵박스(Mapbox)를 활용해 나만의 태블로 커스텀 맵 만드는 법 (0) | 2023.08.20 |
머신러닝 알고리즘 회귀분석 , 예시로 쉽게 알아보기 (0) | 2023.07.20 |
사이킷런에 대해 소개합니다! (0) | 2023.05.20 |
태블로의 다양한 차트를 소개합니다! (0) | 2023.04.20 |