데이터 처리

열과 피벗 데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 한다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜(Date), 발병 국가(Case_Guinea) 등의 데이터를 저장하고 있다. 하지만 이번에 다루는 데이터프레임의 열은 열 자체가 어떤 값을 의미한다. 그러다 보니 데이터프레임의 열이 옆으로 길게 늘어선 형태가 된다. 바로 이것을 '넓은 데이터'라고 한다. 이를 깔끔하게 정리하려면 melt 메서드를 사용해야 한다. melt 메서드의 인자를 정리한 표이다. 퓨 리서치 센터(Pew Research Center)에서 조사한 '미국의 소득과 종교'라는 데이터이다. import pandas as pd pew = pd.read_csv('../data/pew.csv') print(pew.head())..
데이터 처리 열의 자료형을 바꾸거나 새로운 열을 추가하는 방법을 알아보자. print(scientists['Born'].dtype) print(scientists['Died'].dtype) 날짜를 문자열로 저장한 데이터는 시간 관련 작업을 할 수 있도록 datetime 자료형으로 바꾸는 것이 좋다. born_datetime = pd.to_datetime(scientists['Born'], format='%Y-%m-%d') print(born_datetime) died_datetime = pd.to_datetime(scientists['Died'], format='%Y-%m-%d') print(died_datetime) 이제 추가를 해보자. scientists['born_dt'], scientists['d..