파이썬에서 필수적인 라이브러리 중 하나인 Pandas에 대해 간단히 포스팅해보겠습니다.
기본적으로 파일을 열고 닫고, 저장하는 등의 작업을 수행하는 라이브러리이며, 데이터 전처리를 할 때 매우 유용한 라이브러리입니다.
공식 홈페이지는 여기에서 확인하실 수 있습니다.
먼저 Pandas를 import하고, 예제 파일을 하나 불러옵니다.
1 2 3 | import pandas as pd url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data' df = pd.read_csv(url, header=None) | cs |
보다시피 파일을 읽을 때는 read_csv
로 하면 됩니다. csv형식이 아닐 경우 문법만 바꿔서 실행하면, df에 원하는 데이터가 불러와지는 것을 볼 수 있습니다.
df.head()로 파일을 읽어보면, 파일에 헤더가 없는 것을 볼 수 있습니다. 즉 각 항목이 어떤 데이터를 의미하는 것인지 표시가 안되어있는데, 이럴 경우 아래와 같이 컬럼을 추가해줄 수 있습니다.
1 2 3 4 5 | df.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship', 'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'income'] | cs |
반대로, 파일을 저장하고 싶을 때는
1 | df = pd.to_csv('TestFile.csv') | cs |
'Developer > Python' 카테고리의 다른 글
[Python] 웹스크랩핑하기 - Selenium을 통한 크롬 브라우저 제어 (260) | 2019.05.26 |
---|---|
[Python] 웹스크랩핑하기 - link주소 따오기 (attrib) (254) | 2019.05.24 |
[Python] 웹 스크랩핑하기 (252) | 2019.05.24 |
[Python] 한글 인코딩 오류 났을 때 (278) | 2019.05.24 |
[Python] Pandas로 접근한 데이터 전처리 (264) | 2019.05.24 |
댓글