본문 바로가기
Developer/Python

[Python] 웹스크랩핑하기 - link주소 따오기 (attrib)

by Doony 2019. 5. 24.

지난 포스팅에서는 리디북스의 베스트셀러 책명만 가져오는 예제를 다뤘습니다. 이번에는 책 제목이 아니라, 해당 책 제목의 링크를 타고 들어갈 수 있도록 링크 주소를 따오는 코드를 살펴보겠습니다.
코드는 지난번과 거의 동일하며, 딱 한부분만 다릅니다.

1
2
3
4
5
6
7
import lxml.html
root = lxml.html.fromstring(res.text)
links = root.cssselect('a.title_link')
 
linkList = []
for link in links:
    linkList.append(link.attrib['href'])
cs

지난번에는 얻어진 개별 항목에 대해 text_content()를 사용하여 텍스트값을 가져온 반면, 이번에는 attrib['href']를 통해 href 부분에 있는 링크 주소를 가져왔습니다.

비슷한 방식으로, 만약 이미지 주소를 가져오고 싶다면, attrib['src']를 하면, img태그 뒤에 붙은 src의 주소를 가져올 수 있습니다.

이렇게 얻어진 링크 주소와 책 제목을 csv로 내보내는 것은 아래와 같이 할 수 있습니다.

df = pandas.DataFrame({'title': titleList, 'link': linkList})
df.to_csv('RIDIBOOKS_BESTSELLER.csv')

댓글