지난 포스팅에서는 리디북스의 베스트셀러 책명만 가져오는 예제를 다뤘습니다. 이번에는 책 제목이 아니라, 해당 책 제목의 링크를 타고 들어갈 수 있도록 링크 주소를 따오는 코드를 살펴보겠습니다.
코드는 지난번과 거의 동일하며, 딱 한부분만 다릅니다.
1 2 3 4 5 6 7 | import lxml.html root = lxml.html.fromstring(res.text) links = root.cssselect('a.title_link') linkList = [] for link in links: linkList.append(link.attrib['href']) | cs |
지난번에는 얻어진 개별 항목에 대해 text_content()
를 사용하여 텍스트값을 가져온 반면, 이번에는 attrib['href']
를 통해 href 부분에 있는 링크 주소를 가져왔습니다.
비슷한 방식으로, 만약 이미지 주소를 가져오고 싶다면, attrib['src']
를 하면, img태그 뒤에 붙은 src의 주소를 가져올 수 있습니다.
이렇게 얻어진 링크 주소와 책 제목을 csv로 내보내는 것은 아래와 같이 할 수 있습니다.
df = pandas.DataFrame({'title': titleList, 'link': linkList})
df.to_csv('RIDIBOOKS_BESTSELLER.csv')
'Developer > Python' 카테고리의 다른 글
Python 지도 라이브러리, Folium 사용법 (0) | 2020.01.04 |
---|---|
[Python] 웹스크랩핑하기 - Selenium을 통한 크롬 브라우저 제어 (260) | 2019.05.26 |
[Python] 웹 스크랩핑하기 (252) | 2019.05.24 |
[Python] 한글 인코딩 오류 났을 때 (278) | 2019.05.24 |
[Python] Pandas로 접근한 데이터 전처리 (264) | 2019.05.24 |
댓글