본문 바로가기
Developer/Python

[Python] Pandas 라이브러리로 파일 읽기/저장하기

by Doony 2019. 5. 24.

파이썬에서 필수적인 라이브러리 중 하나인 Pandas에 대해 간단히 포스팅해보겠습니다.
기본적으로 파일을 열고 닫고, 저장하는 등의 작업을 수행하는 라이브러리이며, 데이터 전처리를 할 때 매우 유용한 라이브러리입니다.
공식 홈페이지는 여기에서 확인하실 수 있습니다.

먼저 Pandas를 import하고, 예제 파일을 하나 불러옵니다.

1
2
3
import pandas as pd
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
df = pd.read_csv(url, header=None)
cs

보다시피 파일을 읽을 때는 read_csv로 하면 됩니다. csv형식이 아닐 경우 문법만 바꿔서 실행하면, df에 원하는 데이터가 불러와지는 것을 볼 수 있습니다.

df.head()로 파일을 읽어보면, 파일에 헤더가 없는 것을 볼 수 있습니다. 즉 각 항목이 어떤 데이터를 의미하는 것인지 표시가 안되어있는데, 이럴 경우 아래와 같이 컬럼을 추가해줄 수 있습니다.

1
2
3
4
5
df.columns = ['age', 'workclass', 'fnlwgt', 'education', 
              'education_num', 'marital_status', 'occupation',
              'relationship', 'race', 'sex', 'capital_gain',
              'capital_loss', 'hours_per_week', 'native_country',
              'income']
cs

반대로, 파일을 저장하고 싶을 때는

1
df = pd.to_csv('TestFile.csv')
cs

댓글