본문 바로가기

Developer/Python16

[Python] 웹 스크랩핑하기 이번 포스팅에서는 파이썬을 이용해 웹사이트를 스크랩핑하는 방법을 포스팅해보고자 합니다. 웹 스크래핑이란, 쉽게 얘기해서 인터넷에 있는 정보를 긁어오는 것을 말합니다. 예를들어 네이버 영화 순위나, 뉴스 등의 정보를 실시간으로 받아올 수 있습니다. 아주 기초적인 수준에서, 리디북스의 베스트셀러 리스트를 뽑아보는 예제를 시작해보겠습니다. 순서는 다음과 같습니다. RIDIBOOKS 베스트셀러 URL 접속 (GET) 베스트셀러의 항목별 이름에 붙은 cssSelecter로 필터링 리스트 출력 하나씩 봐보도록 하겠습니다. RIDIBOOKS URL 접속1234import requestsurl = 'https://ridibooks.com/bestsellers/general'res = requests.get(url)pr.. 2019. 5. 24.
[Python] 한글 인코딩 오류 났을 때 오류코드: 'utf-8' codec can't decode byte 0xb3 in position 0: Python을 사용하다보면 한글 깨짐현상이 자주 발생합니다. 인코딩 규격이 영문 위주로 흘러가다보니 utf-8에는 한글이 없다고? 들었습니다. 따라서 예를들어 판다스로 csv파일을 열 때, 오류가 나면 다음과 같이 인코딩 부분을 같이 넣어주면 됩니다. df = pd.read_csv('newfile1.csv', encoding='euc-kr') 2019. 5. 24.
[Python] Pandas로 접근한 데이터 전처리 지난 포스팅에서 Pandas를 이용해 파일을 열고, 저장하는 과정에 대해 알아봤습니다. 이번에는 열린 파일에서 어떻게 데이터를 살펴볼 수 있는지 기초적인 방법에 대해 포스팅해보겠습니다. (데이터셋은 지난 포스팅 참고) 판다스로 열린 파일은 행렬 형태로 보고 접근하면 편합니다. 각종 기능들은 아래와 같습니다. 상황에 맞게 참고하여 사용하면 됩니다. 12345678910111213141516171819202122232425262728293031323334353637383940414243## 행렬 이름으로 값 보기 df.loc[4, 'education'] ## 행 이름으로 값 보기 df.loc[3,] ## 여러 행 df.loc[[3, 4, 5], ] ## 행 범위 df.loc[3:5,] ## 열 이름으로 값 .. 2019. 5. 24.
[Python] Pandas 라이브러리로 파일 읽기/저장하기 파이썬에서 필수적인 라이브러리 중 하나인 Pandas에 대해 간단히 포스팅해보겠습니다. 기본적으로 파일을 열고 닫고, 저장하는 등의 작업을 수행하는 라이브러리이며, 데이터 전처리를 할 때 매우 유용한 라이브러리입니다. 공식 홈페이지는 여기에서 확인하실 수 있습니다. 먼저 Pandas를 import하고, 예제 파일을 하나 불러옵니다. 123import pandas as pdurl = 'http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'df = pd.read_csv(url, header=None)Colored by Color Scriptercs 보다시피 파일을 읽을 때는 read_csv로 하면 됩니다. csv형식이 아닐 경우 .. 2019. 5. 24.