데이터분석 6기/본캠프

2025-05-23 크롤링

seyeon1130 2025. 5. 23. 21:06

정적 크롤링: html

동적 크롤링: javascript

 

주요 속성:
 
id: 요소의 고유 식별자 (페이지 내에서 유일해야 함)
<div id="header">헤더 영역</div>
 
class: 여러 요소에 동일한 class 적용 가능, CSS 스타일을 여러 요소에 일관되게 적용하기 위해 사용
<p class="highlight">강조된 문장입니다.</p>​

 

href: 하이퍼링크의 목적지 URL
<a href="https://example.com">링크 텍스트</a>​
 
src: 이미지, 스크립트 등의 소스 파일 경로
<img src="image.jpg" alt="이미지 설명">

 

속성은 데이트를 추출할 때 유용함. 특정 데이터를 가르키기 좋으니까.

 

css

  • document.getElementById('id'): ID로 요소 찾기
  • document.getElementsByClassName('class'): 클래스로 요소들 찾기
  • document.getElementsByTagName('tag'): 태그명으로 요소들 찾기
  • document.querySelector('selector'): CSS 선택자로 첫 번째 요소 찾기
  • document.querySelectorAll('selector'): CSS 선택자로 모든 요소 찾기

개발자 모드에 콘솔에서 여기에 원하는 요소 넣으면 원하는 태그 찾을 수 있음 

 

정적 웹 크롤링 :

from bs4 import BeautifulSoup
soup.find() : html에서 찾을 때 사용
soup.select(): css 선택자에서 찾을 때 사용
 
 

동적 웹 크롤링

selenium 라이브러리

webdriver-manager 라이브러리

 

자바스크팁트로 생성된 콘텐츠 수집

 

나머지는 내일 과제하면서 제대로 공부해봐야겠다

'데이터분석 6기 > 본캠프' 카테고리의 다른 글

2025-05-26 spark  (1) 2025.05.26
2025-05-24 정적 크롤링 과제  (0) 2025.05.24
2025-05-22 API  (0) 2025.05.22
2025-05-21 태블로 메뉴 만들기  (0) 2025.05.21
2025-05-21 API KEY 등록  (1) 2025.05.21