Scatter plot
상관관계를 나타내는 scatter plot은 점으로 데이터를 표현한다.
수익과 할인율이 관계가 있을 거라 생각하고 그래프를 그려보자.

점이 하나 찍혀있다.
모든 물건에 대해 300,000원 정도의 수익이 났고 16% 정도 할인해 주었다는 뜻이다.
하지만 우리가 원하는 데이터는 이게 아니다. 고객별로 데이터를 나눠보자.

각 점은 고객에 대한 데이터이고 할인율과 수익을 볼 수 있다.
눈에 좀 더 잘 보이고 수익을 가져다주는 고객과 그렇지 않은 고객으로 분류해보자.


이것은 제품별로 본 것이다.

추세선을 추가하여 두 데이터사이에 관계를 볼 수 있다.
Histogram
데이터 분포를 볼 수 있는 그래프이다.

데이터는 총 9994개의 행을 가지고 있다.
0에서 200달러 사이에 판매된 재품이 엄청 많다.
데이터가 존재하는 구간이 가운데에 몰려있다. 구간을 넓혀 촘촘한 구간을 바꿔보자.

Box Plot
데이터 분포를 볼 수 있는 다른 그래프인 Box Plot을 그려보자.
합계를 행으로 올린 뒤 sub-category를 세부 정보로 끌고 오면 다음과 같이 그릴 수 있다.

각 점은 하나의 sub-category를 의미하고 여기서 표현방식을 눌러 box plot으로 표현을 바꿀 수 있다.

진한 회색과 옅은 회색의 경계선이 17개의 category중 중간이 되는 9번째 데이터이다.
수염이 있는 곳은 위에서 부터 각각 3/4, 1/4 번째 데이터이다.
이를 지역별로 분기시켜 보자.

각 지역별 box plot을 볼 수 있다.
South 지역은 가운데에 모여서 분포하고 있고 East지역은 넓게 분포하고 있다는 것을 알 수 있다.
또한 South지역을 보면 최대와 최솟값이 수염을 벗어나서 그려져 있다.
이는 IQR(InterQuatile Range)에 1.5배를 벗어났기 때문이다. IQR은 1/4와 3/4의 거리를 의미한다.
즉, 아웃라이어가 된것이다.
Scatter plot
상관관계를 나타내는 scatter plot은 점으로 데이터를 표현한다.
수익과 할인율이 관계가 있을 거라 생각하고 그래프를 그려보자.

점이 하나 찍혀있다.
모든 물건에 대해 300,000원 정도의 수익이 났고 16% 정도 할인해 주었다는 뜻이다.
하지만 우리가 원하는 데이터는 이게 아니다. 고객별로 데이터를 나눠보자.

각 점은 고객에 대한 데이터이고 할인율과 수익을 볼 수 있다.
눈에 좀 더 잘 보이고 수익을 가져다주는 고객과 그렇지 않은 고객으로 분류해보자.


이것은 제품별로 본 것이다.

추세선을 추가하여 두 데이터사이에 관계를 볼 수 있다.
Histogram
데이터 분포를 볼 수 있는 그래프이다.

데이터는 총 9994개의 행을 가지고 있다.
0에서 200달러 사이에 판매된 재품이 엄청 많다.
데이터가 존재하는 구간이 가운데에 몰려있다. 구간을 넓혀 촘촘한 구간을 바꿔보자.

Box Plot
데이터 분포를 볼 수 있는 다른 그래프인 Box Plot을 그려보자.
합계를 행으로 올린 뒤 sub-category를 세부 정보로 끌고 오면 다음과 같이 그릴 수 있다.

각 점은 하나의 sub-category를 의미하고 여기서 표현방식을 눌러 box plot으로 표현을 바꿀 수 있다.

진한 회색과 옅은 회색의 경계선이 17개의 category중 중간이 되는 9번째 데이터이다.
수염이 있는 곳은 위에서 부터 각각 3/4, 1/4 번째 데이터이다.
이를 지역별로 분기시켜 보자.

각 지역별 box plot을 볼 수 있다.
South 지역은 가운데에 모여서 분포하고 있고 East지역은 넓게 분포하고 있다는 것을 알 수 있다.
또한 South지역을 보면 최대와 최솟값이 수염을 벗어나서 그려져 있다.
이는 IQR(InterQuatile Range)에 1.5배를 벗어났기 때문이다. IQR은 1/4와 3/4의 거리를 의미한다.
즉, 아웃라이어가 된것이다.