시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성해보자. import pandas as pd s = pd.Series(['banana', 42]) print(s) 인덱스(index)는 보통 0부터 시작한다. 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다. s = pd.Series(['Wes McKinney', 'Creator of Pandas']) print(s) print() s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who']) print(s) 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다. scientists = pd.D..
판다스
통계 계산 기초 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보자. 갭마인더 데이터 집합에서 0~9번째 데이터를 추출한 것이다. print(df.head(n=10)) lifeExp 열을 연도별로 그룹화하여 평균 계산 데이터를 year열로 그룹화하고 lifeExp 열의 평균을 구하면 된다. 데이터프레임의 groupby 메서드에 year 열을 전달하여 연도별로 그룹화한 다음 lifeExp 열을 지정하여 mean 메서드로 평균을 구하자. print(df.groupby('year')['lifeExp'].mean()) lideExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화 year, continent 열로 그룹화한 그룹 데이터프레임에서 lifeExp, gdpPercap 열만 추출하여 평균을 구..
데이터 추출 head() 메서드를 이용해 데이터프레임에서 가장 앞에 있는 5개의 데이터를 추출하여 출력했다. 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보자. 열 단위 데이터 추출 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 한다. 이때 열 이름은 꼭 작은따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용한다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있다. country_df = df['country'] print(type(country_df)) print(country_df.head()) print(country_df.tail()) 대괄호와 열 이름으로 데이터를 추출하여 co..
데이터 불러오기 데이터 분석을 위해 데이터를 불러오는 작업부터 해야 한다. 이때 불러오는 데이터를 '데이터 집합'이라고 한다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보자. 처음 불러올 데이터 집합은 갭마인더(Gapminder)이다. 판다스 라이브러리 임포트 import pandas as pd 갭마인더 데이터 집합 불러오기 df = pd.read_csv('../data/gapminder.tsv', sep='\t') read_csv() 함수를 이용하여 데이터를 불러오자. sep 속성값은 '\t'으로 구분되어 있음을 의미한다. 시리즈와 데이터프레임 판다스에서 사용되는 자료형은 시리즈(Series)와 데이터프레임(DataFrame)이 있다. 데이터프레임은 엑셀에서 볼 수 있는 시트(Sheet..
실습 데이터 이지스퍼블리싱에서 출간한 pandas 책을 참고하여 학습을 진행할 것이다. 이지스퍼블리싱 자료실과 깃허브를 참고하여 실습 데이터를 준비하자. 파이썬 패키지 관리자 - pip anaconda prompt를 실행시켜 필요한 패키지를 설치하자. pip list pip list로 판다스가 잘 설치되었는지 확인하자. 판다스가 잘 설치되어 있다. 다른 패키지를 설치하려면 'pip install'을 입력하고 원하는 패키지 이름을 적으면 된다. 예시로 beautifulsoup4를 제거하고 다시 설치해 보자. 제거 pip unistall beautifulsoup4 제거 여부를 묻는다 'y'를 입력하여 삭제하자. pip install beautifulsoup4
Anaconda 아나콘다라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 학습을 진행하자. 만약 파이썬이 설치되어 있다면 파이썬을 모두 제거한 뒤 아나콘다를 설치해야 한다. 아나콘다를 설치하면 자동으로 가장 잘 호환되는 파이썬도 함께 설치되기 때문이다. https://www.anaconda.com/download Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 위의 링크에서 다운로드하면 된다. 모두 기본 옵..