데이터 불러오기 데이터 분석을 위해 데이터를 불러오는 작업부터 해야 한다. 이때 불러오는 데이터를 '데이터 집합'이라고 한다. 그러면 데이터 집합을 불러오는 방법과 데이터를 간단히 살펴보자. 처음 불러올 데이터 집합은 갭마인더(Gapminder)이다. 판다스 라이브러리 임포트 import pandas as pd 갭마인더 데이터 집합 불러오기 df = pd.read_csv('../data/gapminder.tsv', sep='\t') read_csv() 함수를 이용하여 데이터를 불러오자. sep 속성값은 '\t'으로 구분되어 있음을 의미한다. 시리즈와 데이터프레임 판다스에서 사용되는 자료형은 시리즈(Series)와 데이터프레임(DataFrame)이 있다. 데이터프레임은 엑셀에서 볼 수 있는 시트(Sheet..
데이터
모델 튜닝 사이킷런의 SGDClassifier 클래스를 이용하여 로지스틱 회귀 문제에 경사 하강법을 적용했다. 이때 loss 함수를 log로 지정했었다. from sklearn.datasets import load_breast_cancer from sklearn.model_selction import train_test_split cancer = load_breast_cancer() x = cancer.data y = cancer.target x_train_all, x_test, y_train_all, y_test = train_test_split(x, y, stratify = y, test_size=0.2, random_state=42) train_test_split() 함수를 이용하여 데이터를 나눌 ..
데이터 불러오기(with pandas) import pandas as pd 데이터를 다루는데 유용한 기능을 제공하는 모듈이다. # save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_data.describe() 이런 식으로 path를 지정하고..