기초 그래프 그리기 seaborn 라이브러리에는 tips라는 데이터 집합이 있다. tips 데이터 집합은 어떤 식당에서 팁을 지불한 손님의 정보를 모아둔 것이다. 데이터 불러오기 tips = sns.load_dataset("tips") print(tips.head()) print(type(tips)) 위의 데이터로 히스토그램을 그려보자. 히스토그램은 데이터프레임의 열 데이터 분포와 빈도를 살펴보는 용도로 자주 사용하는 그래프이다. 이때 데이터프레임의 total_bill, tip 등의 열을 변수라고 부르기도 한다. 그리고 변수를 하나만 사용해서 그린 그래프를 '일변량 그래프'라고 부른다. fig = plt.figure() axes1 = fig.add_subplot(1, 1, 1) 기본 틀을 만든다. axe..
Python/pandas
데이터 시각화 데이터 시각화를 보여주는 전형적인 사례로 앤스콤 4분할 그래프(Anscombe's quartet)가 있다. 영국의 프랭크 앤스콤이 데이터를 시각화하지 않고 수치만 확일할 때 발생할 수 있는 함정을 보여주기 위해 만든 그래프이다. 앤스콤이 지적한 함정과 데이터 시각화의 필요성 앤스콤 4분할 그래프를 구성하는 데이터 집합은 4개의 그룹으로 구성되어 있으며 모든 데이터 그룹은 x, y 열을 가지고 있다. 그런데 이 4개의 데이터 그룹은 각각 평균, 분산과 같은 수칫값이나 상관관계, 회귀선이 같다는 특징이 있다. 그래서 이런 결과만 보고 '데이터 그룹 1, 2, 3, 4의 데이터는 모두 같을 것이다'라고 착가할 수 있다. 바로 이것이 앤스콤이 지적한 '함정'이다. 하지만 각 데이터 그룹을 시각화하..
데이터 처리 열의 자료형을 바꾸거나 새로운 열을 추가하는 방법을 알아보자. print(scientists['Born'].dtype) print(scientists['Died'].dtype) 날짜를 문자열로 저장한 데이터는 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꾸는 것이 좋다. born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d') print(born_datetime) died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d') print(died_datetime) 이제 추가를 해보자. scientists['born_dt'], scientists['d..
시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성해보자. import pandas as pd s = pd.Series(['banana', 42]) print(s) 인덱스(index)는 보통 0부터 시작한다. 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다. s = pd.Series(['Wes McKinney', 'Creator of Pandas']) print(s) print() s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who']) print(s) 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다. scientists = pd.D..
통계 계산 기초 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보자. 갭마인더 데이터 집합에서 0~9번째 데이터를 추출한 것이다. print(df.head(n=10)) lifeExp 열을 연도별로 그룹화하여 평균 계산 데이터를 year열로 그룹화하고 lifeExp 열의 평균을 구하면 된다. 데이터프레임의 groupby 메서드에 year 열을 전달하여 연도별로 그룹화한 다음 lifeExp 열을 지정하여 mean 메서드로 평균을 구하자. print(df.groupby('year')['lifeExp'].mean()) lideExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화 year, continent 열로 그룹화한 그룹 데이터프레임에서 lifeExp, gdpPercap 열만 추출하여 평균을 구..
데이터 추출 head() 메서드를 이용해 데이터프레임에서 가장 앞에 있는 5개의 데이터를 추출하여 출력했다. 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보자. 열 단위 데이터 추출 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 한다. 이때 열 이름은 꼭 작은따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용한다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있다. country_df = df['country'] print(type(country_df)) print(country_df.head()) print(country_df.tail()) 대괄호와 열 이름으로 데이터를 추출하여 co..
데이터 불러오기 데이터 분석을 위해 데이터를 불러오는 작업부터 해야 한다. 이때 불러오는 데이터를 '데이터 집합'이라고 한다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보자. 처음 불러올 데이터 집합은 갭마인더(Gapminder)이다. 판다스 라이브러리 임포트 import pandas as pd 갭마인더 데이터 집합 불러오기 df = pd.read_csv('../data/gapminder.tsv', sep='\t') read_csv() 함수를 이용하여 데이터를 불러오자. sep 속성값은 '\t'으로 구분되어 있음을 의미한다. 시리즈와 데이터프레임 판다스에서 사용되는 자료형은 시리즈(Series)와 데이터프레임(DataFrame)이 있다. 데이터프레임은 엑셀에서 볼 수 있는 시트(Sheet..
실습 데이터 이지스퍼블리싱에서 출간한 pandas 책을 참고하여 학습을 진행할 것이다. 이지스퍼블리싱 자료실과 깃허브를 참고하여 실습 데이터를 준비하자. 파이썬 패키지 관리자 - pip anaconda prompt를 실행시켜 필요한 패키지를 설치하자. pip list pip list로 판다스가 잘 설치되었는지 확인하자. 판다스가 잘 설치되어 있다. 다른 패키지를 설치하려면 'pip install'을 입력하고 원하는 패키지 이름을 적으면 된다. 예시로 beautifulsoup4를 제거하고 다시 설치해 보자. 제거 pip unistall beautifulsoup4 제거 여부를 묻는다 'y'를 입력하여 삭제하자. pip install beautifulsoup4
Anaconda 아나콘다라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 학습을 진행하자. 만약 파이썬이 설치되어 있다면 파이썬을 모두 제거한 뒤 아나콘다를 설치해야 한다. 아나콘다를 설치하면 자동으로 가장 잘 호환되는 파이썬도 함께 설치되기 때문이다. https://www.anaconda.com/download Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 위의 링크에서 다운로드하면 된다. 모두 기본 옵..