정적 크롤링: html
동적 크롤링: javascript
주요 속성:
id: 요소의 고유 식별자 (페이지 내에서 유일해야 함)
<div id="header">헤더 영역</div>
class: 여러 요소에 동일한 class 적용 가능, CSS 스타일을 여러 요소에 일관되게 적용하기 위해 사용
<p class="highlight">강조된 문장입니다.</p>
href: 하이퍼링크의 목적지 URL
<a href="https://example.com">링크 텍스트</a>
src: 이미지, 스크립트 등의 소스 파일 경로
<img src="image.jpg" alt="이미지 설명">
속성은 데이트를 추출할 때 유용함. 특정 데이터를 가르키기 좋으니까.
css
- document.getElementById('id'): ID로 요소 찾기
- document.getElementsByClassName('class'): 클래스로 요소들 찾기
- document.getElementsByTagName('tag'): 태그명으로 요소들 찾기
- document.querySelector('selector'): CSS 선택자로 첫 번째 요소 찾기
- document.querySelectorAll('selector'): CSS 선택자로 모든 요소 찾기
개발자 모드에 콘솔에서 여기에 원하는 요소 넣으면 원하는 태그 찾을 수 있음
정적 웹 크롤링 :
from bs4 import BeautifulSoup
soup.find() : html에서 찾을 때 사용
soup.select(): css 선택자에서 찾을 때 사용
동적 웹 크롤링
selenium 라이브러리
webdriver-manager 라이브러리
자바스크팁트로 생성된 콘텐츠 수집
나머지는 내일 과제하면서 제대로 공부해봐야겠다
'데이터분석 6기 > 본캠프' 카테고리의 다른 글
2025-05-26 spark (1) | 2025.05.26 |
---|---|
2025-05-24 정적 크롤링 과제 (0) | 2025.05.24 |
2025-05-22 API (0) | 2025.05.22 |
2025-05-21 태블로 메뉴 만들기 (0) | 2025.05.21 |
2025-05-21 API KEY 등록 (1) | 2025.05.21 |