라이브러리 Beautiful Soup의 이름은 tag soup에서 유래한다. tag soup이란 문법, 구조적으로 잘못된 HTML 웹 문서를 일컫는 용어다. HTML 문서는 오류에 유연하게 대응할 수 있기에 웹 개발자들이 엄격하게 규칙을 따르지 않는 경우가 많았다. HTML과 텍스트가 마구잡이로 뒤섞이고 닫는 태그도 제대로 지켜지지 않을 때도 있었다. 이런 더러운 구조를 가진 웹문서를 두고 마구 뒤섞인 수프와 같다고 해서 tag soup란 이름이 붙었다.

 

BeautifulSoup은 tag soup을 아름답게 변환시켜준다는 의미에서 지은 이름이다. 이는 동화 '이상한 나라의 앨리스'에서도 등장한다. 앨리스는 가짜 거북과 함께 시를 외우다 지쳐버린다. 뒤죽박죽이고 말이 안맞는 부분이 너무 많기 때문이다. 그래서 가짜 거북에게 차라리 노래를 한 곡 불러달라고 부탁한다. 가짜 거북은 '거북 수프'라는 노래를 부른다.

"이걸 다 외워서 무슨 소용이야!"
가짜 거북이가 또 끼어들며 말했어요.
"추가 설명 없인 대체 무슨 소린지 하나도 모르겠구나. 내 생전 이렇게 헷갈리는 시는 또 처음이야."

가짜 거북이는 깊은 한 숨을 몰아쉬더니 이따금씩 흐느낌을 삼키는 목소리로 다음과 같은 노래를 부르기 시작했어요.
"아름다운 수프, 풍만한 녹색,
그릇에서 기다리거라!
누가 이 맛있는 것에 숙이지 않으리?
저녁 수프, 아름다운 수프!
아--르음다운 수---프!
저어녀---엌 수---프!
아름다운, 아름다운 수프



출처: https://desarraigado.tistory.com/14 [준우의 오류노트]

 

BeautifulSoup 모듈 find와 select의 차이점 - 복잡한 웹을 간단하게

BeautifulSoup은 HTML 문서를 예쁘게 정돈된 파스트리로 변환하여 내놓는 파이썬 라이브러리다. 이 잘 정돈된 데이터 구조는 Beautiful Soup 객체로서 여러 tag 객체로 이루어져 있다. 영어, 한국어와 같은

desarraigado.tistory.com

 

'대학공부' 카테고리의 다른 글

VScode(비주얼스튜디오 코드) C언어 세팅  (0) 2021.09.24
C언어 정수자료형  (0) 2021.09.23
자료구조와 알고리즘을 배우는 이유  (0) 2021.09.03
알고리즘 기초  (0) 2021.09.03
HTML 기초  (0) 2021.06.25