분류 전체보기 128

2025-05-24 정적 크롤링 과제

과제 개요AI타임즈(www.aitimes.com) 웹사이트에서 최신 AI 관련 뉴스 기사의 제목, 내용, 날짜 등을 수집여러 페이지의 뉴스 목록을 수집하고 각 기사의 상세 내용까지 추출수집한 데이터를 구조화하여 JSON 파일로 저장구현 단계뉴스 목록 페이지 분석 및 요청페이지 URL 구조 파악HTTP 요청 함수 구현뉴스 목록에서 기사 정보 추출BeautifulSoup으로 기사 목록 파싱제목, 요약, URL, 날짜 등 추출기사 상세 내용 수집각 기사 URL로 접속하여 본문 추출지연 시간 설정으로 서버 부담 최소화데이터 저장 및 분석수집한 모든 데이터를 JSON 형식으로 저장날짜 범위 및 기사 개수 통계 작성url 분석홈페이지: 'https://www.aitimes.com'본문 :' 'https://www...

2025-05-23 크롤링

정적 크롤링: html동적 크롤링: javascript 주요 속성: id: 요소의 고유 식별자 (페이지 내에서 유일해야 함)​헤더 영역 class: 여러 요소에 동일한 class 적용 가능, CSS 스타일을 여러 요소에 일관되게 적용하기 위해 사용​강조된 문장입니다.​ href: 하이퍼링크의 목적지 URL​링크 텍스트​ src: 이미지, 스크립트 등의 소스 파일 경로 속성은 데이트를 추출할 때 유용함. 특정 데이터를 가르키기 좋으니까. cssdocument.getElementById('id'): ID로 요소 찾기document.getElementsByClassName('class'): 클래스로 요소들 찾기document.getElementsByTagName('tag'): 태그명으로 요소들 찾기docume..

2025-05-22 API

HTTPGET함수: 데이터 가져올 때 사용 헤더 필드 HTTP 응답200번대: 정상400번대: 클라이언트 측 문제500번대: 서버 문제 REST API :자원을 URL로 표현, HTTP로 자원의 행위를 정의(그냥 규칙이라고 보면 됨) URL 구성 요소프로토콜(Scheme): 통신 규칙호스트(Host): 도메인 이름 또는 IP 주소포트(Port): 서비스 접속 번호 (생략 가능, HTTP는 80, HTTPS는 443)경로(Path): 자원의 위치를 나타내는 문자열쿼리 스트링(Query String): 자원에 대한 추가 정보 (필터링, 검색어 등) API 사용 import urllib.requestimport urllib.parseclient_id = "너의_네이버_Client_ID_여기에" # 네이버 ..

2025-05-21 API KEY 등록

네이버https://developers.naver.com/main/ NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음developers.naver.com 애플리케이션 등록에 들어가서 약관동의와 정보를 등록해준다설정은 다음과 같이 해준다. Documents에서 활용 방법 확인 가능함.유튜브https://console.developers.google.com/ Google 클라우드 플랫폼로그인 Google 클라우드 플랫폼으로 이동accounts.google.com무료료 시작하기 Youtube Data API v3 검색 저거 누..