통계 계산 기초
데이터를 가지고 몇 가지 기초적인 통계 계산을 해보자.
갭마인더 데이터 집합에서 0~9번째 데이터를 추출한 것이다.
print(df.head(n=10))
lifeExp 열을 연도별로 그룹화하여 평균 계산
데이터를 year열로 그룹화하고 lifeExp 열의 평균을 구하면 된다.
데이터프레임의 groupby 메서드에 year 열을 전달하여 연도별로 그룹화한 다음 lifeExp 열을 지정하여 mean 메서드로 평균을 구하자.
print(df.groupby('year')['lifeExp'].mean())
lideExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화
year, continent 열로 그룹화한 그룹 데이터프레임에서 lifeExp, gdpPercap 열만 추출하여 평균을 구하자.
multi_group_var = df.groupby(['year','continent'])[['lifeExp','gdpPercap']].mean()
print(type(multi_group_var))
데이터의 개수를 세는 메서드는 nunique()이다. 이를 통계에서는 '빈도수'라고 부른다.
print(df.groupby('continent')['country'].nunique())
그래프 그리기
%matplotlib inline
import matplotlib as plt
그래프 관련 라이브러리를 불러온다.
그런 다음 yaer 열을 기준으로 그룹화한 데이터프레임에서 lifeExp 열만 추출하여 평균값을 구한다.
global_yearly_expectancy = df.groupby('year')['lifeExp'].mean()
print(global_yearly_expectancy)
plot() 메서드를 사용하여 그래프를 그리자
global_yearly_expectancy.plot()