시리즈 만들기 판다스의 Series 메서드에 리스트를 전달하여 시리즈를 생성해보자. import pandas as pd s = pd.Series(['banana', 42]) print(s) 인덱스(index)는 보통 0부터 시작한다. 하지만 시리즈를 생성할 때 문자열을 인덱스로 지정할 수 있다. s = pd.Series(['Wes McKinney', 'Creator of Pandas']) print(s) print() s = pd.Series(['Wes McKinney', 'Creator of Pandas'], index=['Person', 'Who']) print(s) 데이터프레임 만들기 데이터프레임을 만들기 위해서는 딕셔너리를 DataFrame 클래스에 전달해야 한다. scientists = pd.D..
파이썬
통계 계산 기초 데이터를 가지고 몇 가지 기초적인 통계 계산을 해보자. 갭마인더 데이터 집합에서 0~9번째 데이터를 추출한 것이다. print(df.head(n=10)) lifeExp 열을 연도별로 그룹화하여 평균 계산 데이터를 year열로 그룹화하고 lifeExp 열의 평균을 구하면 된다. 데이터프레임의 groupby 메서드에 year 열을 전달하여 연도별로 그룹화한 다음 lifeExp 열을 지정하여 mean 메서드로 평균을 구하자. print(df.groupby('year')['lifeExp'].mean()) lideExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화 year, continent 열로 그룹화한 그룹 데이터프레임에서 lifeExp, gdpPercap 열만 추출하여 평균을 구..
데이터 추출 head() 메서드를 이용해 데이터프레임에서 가장 앞에 있는 5개의 데이터를 추출하여 출력했다. 데이터를 열 단위로 추출하는 방법과 행 단위로 추출하는 방법을 알아보자. 열 단위 데이터 추출 데이터프레임에서 데이터를 열 단위로 추출하려면 대괄호와 열 이름을 사용해야 한다. 이때 열 이름은 꼭 작은따옴표를 사용해서 지정해야 하고 추출한 열은 변수에 저장해서 사용한다. 이때 1개의 열만 추출하면 시리즈를 얻을 수 있고 2개 이상의 열을 추출하면 데이터프레임을 얻을 수 있다. country_df = df['country'] print(type(country_df)) print(country_df.head()) print(country_df.tail()) 대괄호와 열 이름으로 데이터를 추출하여 co..
데이터 불러오기 데이터 분석을 위해 데이터를 불러오는 작업부터 해야 한다. 이때 불러오는 데이터를 '데이터 집합'이라고 한다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보자. 처음 불러올 데이터 집합은 갭마인더(Gapminder)이다. 판다스 라이브러리 임포트 import pandas as pd 갭마인더 데이터 집합 불러오기 df = pd.read_csv('../data/gapminder.tsv', sep='\t') read_csv() 함수를 이용하여 데이터를 불러오자. sep 속성값은 '\t'으로 구분되어 있음을 의미한다. 시리즈와 데이터프레임 판다스에서 사용되는 자료형은 시리즈(Series)와 데이터프레임(DataFrame)이 있다. 데이터프레임은 엑셀에서 볼 수 있는 시트(Sheet..
실습 데이터 이지스퍼블리싱에서 출간한 pandas 책을 참고하여 학습을 진행할 것이다. 이지스퍼블리싱 자료실과 깃허브를 참고하여 실습 데이터를 준비하자. 파이썬 패키지 관리자 - pip anaconda prompt를 실행시켜 필요한 패키지를 설치하자. pip list pip list로 판다스가 잘 설치되었는지 확인하자. 판다스가 잘 설치되어 있다. 다른 패키지를 설치하려면 'pip install'을 입력하고 원하는 패키지 이름을 적으면 된다. 예시로 beautifulsoup4를 제거하고 다시 설치해 보자. 제거 pip unistall beautifulsoup4 제거 여부를 묻는다 'y'를 입력하여 삭제하자. pip install beautifulsoup4
Anaconda 아나콘다라는 파이썬과 데이터 분석 라이브러리를 한데 모아 놓은 패키지를 설치하여 학습을 진행하자. 만약 파이썬이 설치되어 있다면 파이썬을 모두 제거한 뒤 아나콘다를 설치해야 한다. 아나콘다를 설치하면 자동으로 가장 잘 호환되는 파이썬도 함께 설치되기 때문이다. https://www.anaconda.com/download Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data science and machine learning on a single machine. www.anaconda.com 위의 링크에서 다운로드하면 된다. 모두 기본 옵..
github.com/rougier/numpy-100 rougier/numpy-100 100 numpy exercises (with solutions). Contribute to rougier/numpy-100 development by creating an account on GitHub. github.com 51. ((x, y) , (r, g, b))를 원소로 갖는 배열을 만든다. 52. (100, 2) 좌표를 만들고 사이의 거리를 나타낸 것이다. scipy패키지를 이용하면 된다. 53. float을 int로 바꾸는 방법이다. view로 데이터만 공유하게 복사를 한다. 54. genfromtxt()로 txt을 읽을 수 있다. 55. 배열의 index와 요소를 함께 출력하는 방법이다. np.npdidex..
github.com/rougier/numpy-100 rougier/numpy-100 100 numpy exercises (with solutions). Contribute to rougier/numpy-100 development by creating an account on GitHub. github.com 41. np.sum() 말고 np.add()를 이용하여 array를 더할 수 있다. 42. allclose(): 두 array가 같은지 비교하는 메서드이다. 43. Z.flag.writeable = False로 설정하여 쓰기 권한을 제한하여 error가 발생한다. 44. random 한 값으로 10x2 matrix를 생성한 뒤 연산을 이용하여 값을 구한다. 45. argmax(): 최댓값을 가지는 ..
github.com/rougier/numpy-100 rougier/numpy-100 100 numpy exercises (with solutions). Contribute to rougier/numpy-100 development by creating an account on GitHub. github.com 31. np.seterr(): err를 설정하는 함수이다. 모두 무시하게 설정한다. 32. False이다. nan == 1j로 다른데 emath를 사용하면 허수로 표현 가능하다. 33. np.datetime64('today'): 날짜를 받아올 수 있다. 34. np.arange()는 날짜도 적용이 가능하다. 35. 여러 함수를 사용하여 copy 없이 연산을 수행한다. 36. 모두 int부분만을 cl..
https://github.com/rougier/numpy-100 rougier/numpy-100 100 numpy exercises (with solutions). Contribute to rougier/numpy-100 development by creating an account on GitHub. github.com 21. np.tile(): array를 반복하여 새로운 vector를 만든다. (array를 가지고 (4,4) 사이즈로 생성) 22. 평균을 빼고 표준 편차로 나누어주면 정규화가 된다. 23. dtype을 만드는 방법이다. 24. np.dot()을 이용하여 matrix끼리 곱할 수 있다. 또한, @연산자를 사용해서도 가능하다 25. 3~8 사이에 요소의 부호를 반전시키는 방법이다. 2..