Scatter plot 상관관계를 나타내는 scatter plot은 점으로 데이터를 표현한다. 수익과 할인율이 관계가 있을 거라 생각하고 그래프를 그려보자. 점이 하나 찍혀있다. 모든 물건에 대해 300,000원 정도의 수익이 났고 16% 정도 할인해 주었다는 뜻이다. 하지만 우리가 원하는 데이터는 이게 아니다. 고객별로 데이터를 나눠보자. 각 점은 고객에 대한 데이터이고 할인율과 수익을 볼 수 있다. 눈에 좀 더 잘 보이고 수익을 가져다주는 고객과 그렇지 않은 고객으로 분류해보자. 이것은 제품별로 본 것이다. 추세선을 추가하여 두 데이터사이에 관계를 볼 수 있다. Histogram 데이터 분포를 볼 수 있는 그래프이다. 데이터는 총 9994개의 행을 가지고 있다. 0에서 200달러 사이에 판매된 재품이..
scatter
단변량 그래프 그리기 - 히스토그램 seaborn 라이브러리를 sns라고 하자. import seaborn as sns tips = sns.load_dataset("tips") ax = plt.subplots() ax = sns.distplot(tips['total_bill']) ax.set_title('Total Bill Histogram with Density Plot') subplots 메서드로 기본 틀을 만들고 distplot 메서드에 total_bill 열 데이터를 전달하여 히스토그램을 그릴 수 있다. 이때 distplot 메서드를 사용하면 히스토그램과 밀집도 그래프를 같이 그린다. 만약 밀집도 그래프를 제외하고 싶다면 kde 인잣값을 False로 설정하면 된다. 밀집도 그래프만 나타내고 싶다면..
기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것이다. 데이터 불러오기 tips = sns.load_dataset("tips") print(tips.head()) print(type(tips)) 위의 데이터로 히스토그램을 그려보자. 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용하는 그래프이다. 이때 데이터프레임의 total_bill, tip 등의 열을 변수라고 부르기도 한다. 그리고 변수를 하나만 사용해서 그린 그래프를 '일변량 그래프'라고 부른다. fig = plt.figure() axes1 = fig.add_subplot(1, 1, 1) 기본 틀을 만든다. axe..