Scatter plot
상관관계를 나타내는 scatter plot은 점으로 데이터를 표현한다.
수익과 할인율이 관계가 있을 거라 생각하고 그래프를 그려보자.
점이 하나 찍혀있다.
모든 물건에 대해 300,000원 정도의 수익이 났고 16% 정도 할인해 주었다는 뜻이다.
하지만 우리가 원하는 데이터는 이게 아니다. 고객별로 데이터를 나눠보자.
각 점은 고객에 대한 데이터이고 할인율과 수익을 볼 수 있다.
눈에 좀 더 잘 보이고 수익을 가져다주는 고객과 그렇지 않은 고객으로 분류해보자.
이것은 제품별로 본 것이다.
추세선을 추가하여 두 데이터사이에 관계를 볼 수 있다.
Histogram
데이터 분포를 볼 수 있는 그래프이다.
데이터는 총 9994개의 행을 가지고 있다.
0에서 200달러 사이에 판매된 재품이 엄청 많다.
데이터가 존재하는 구간이 가운데에 몰려있다. 구간을 넓혀 촘촘한 구간을 바꿔보자.
Box Plot
데이터 분포를 볼 수 있는 다른 그래프인 Box Plot을 그려보자.
합계를 행으로 올린 뒤 sub-category를 세부 정보로 끌고 오면 다음과 같이 그릴 수 있다.
각 점은 하나의 sub-category를 의미하고 여기서 표현방식을 눌러 box plot으로 표현을 바꿀 수 있다.
진한 회색과 옅은 회색의 경계선이 17개의 category중 중간이 되는 9번째 데이터이다.
수염이 있는 곳은 위에서 부터 각각 3/4, 1/4 번째 데이터이다.
이를 지역별로 분기시켜 보자.
각 지역별 box plot을 볼 수 있다.
South 지역은 가운데에 모여서 분포하고 있고 East지역은 넓게 분포하고 있다는 것을 알 수 있다.
또한 South지역을 보면 최대와 최솟값이 수염을 벗어나서 그려져 있다.
이는 IQR(InterQuatile Range)에 1.5배를 벗어났기 때문이다. IQR은 1/4와 3/4의 거리를 의미한다.
즉, 아웃라이어가 된것이다.