분류 전체보기 138

2025-05-24 정적 크롤링 과제

과제 개요AI타임즈(www.aitimes.com) 웹사이트에서 최신 AI 관련 뉴스 기사의 제목, 내용, 날짜 등을 수집여러 페이지의 뉴스 목록을 수집하고 각 기사의 상세 내용까지 추출수집한 데이터를 구조화하여 JSON 파일로 저장구현 단계뉴스 목록 페이지 분석 및 요청페이지 URL 구조 파악HTTP 요청 함수 구현뉴스 목록에서 기사 정보 추출BeautifulSoup으로 기사 목록 파싱제목, 요약, URL, 날짜 등 추출기사 상세 내용 수집각 기사 URL로 접속하여 본문 추출지연 시간 설정으로 서버 부담 최소화데이터 저장 및 분석수집한 모든 데이터를 JSON 형식으로 저장날짜 범위 및 기사 개수 통계 작성url 분석홈페이지: 'https://www.aitimes.com'본문 :' 'https://www...

2025-05-23 크롤링

정적 크롤링: html동적 크롤링: javascript 주요 속성: id: 요소의 고유 식별자 (페이지 내에서 유일해야 함)​헤더 영역 class: 여러 요소에 동일한 class 적용 가능, CSS 스타일을 여러 요소에 일관되게 적용하기 위해 사용​강조된 문장입니다.​ href: 하이퍼링크의 목적지 URL​링크 텍스트​ src: 이미지, 스크립트 등의 소스 파일 경로 속성은 데이트를 추출할 때 유용함. 특정 데이터를 가르키기 좋으니까. cssdocument.getElementById('id'): ID로 요소 찾기document.getElementsByClassName('class'): 클래스로 요소들 찾기document.getElementsByTagName('tag'): 태그명으로 요소들 찾기docume..

2025-05-22 API

HTTPGET함수: 데이터 가져올 때 사용 헤더 필드 HTTP 응답200번대: 정상400번대: 클라이언트 측 문제500번대: 서버 문제 REST API :자원을 URL로 표현, HTTP로 자원의 행위를 정의(그냥 규칙이라고 보면 됨) URL 구성 요소프로토콜(Scheme): 통신 규칙호스트(Host): 도메인 이름 또는 IP 주소포트(Port): 서비스 접속 번호 (생략 가능, HTTP는 80, HTTPS는 443)경로(Path): 자원의 위치를 나타내는 문자열쿼리 스트링(Query String): 자원에 대한 추가 정보 (필터링, 검색어 등) API 사용 import urllib.requestimport urllib.parseclient_id = "너의_네이버_Client_ID_여기에" # 네이버 ..

2025-05-21 API KEY 등록

네이버https://developers.naver.com/main/ NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음developers.naver.com 애플리케이션 등록에 들어가서 약관동의와 정보를 등록해준다설정은 다음과 같이 해준다. Documents에서 활용 방법 확인 가능함.유튜브https://console.developers.google.com/ Google 클라우드 플랫폼로그인 Google 클라우드 플랫폼으로 이동accounts.google.com무료료 시작하기 Youtube Data API v3 검색 저거 누..

2025-05-20 실전 프로젝트 PPT제작

우선 대시보드가 완성 됐다통합 대시보드 지역 대시보드 강의 대시보드 개인 대시보드나는 피피티 제작 담당이라서 하루종일 피피티 만들었따...ㅎ우선 이게 대략적인 틀! 주제 선정 : edx가 어떤 사이트인지 설명 데이터셋 설명 : edX 가 어떤 사이트인지 설명하버드 mit 중심으로 대학 강의를 전세계에 무료로 제공하는 mooc 서비스수료 과정 설명목적: 수료율, 재방문율 높이고 최대한 많은 사람들에게 강의를 보여주기 데이터 설명: 전체 컬럼, 주요 사용 컬럼, 파생컬럼 데이터 분석 도구 : 사용한 라이브러리, 도구(태블로) 소개 전처리: 결측치, 이상치 처리 과정 통계 분석 : 수료율에 가장 영향을 크게 미쳤던 것상관분석지역 -> 지역별 대시보드explored, 성적 -> 강의별 대시보드 학습일 -> 개인..

2025-05-29 태블로 심화

우선 우리의 색은 초록색으로변경이 됐다. 그리고 배경 이미지를 넣기 위해 모두 부동으로 변경했다.배경 삽입 완료! 여기부터는 내가 작성한 대본 먼저, 메인 지표부터 살펴보겠습니다.전체 수강생 수는 약 40만 명이며, 이 중 약 79%에 해당하는 32만 명이 한 강의만 수강하고 이탈했습니다.반면, 한 번 이상 재방문한 수강생은 15%, 여러 번 재방문한 수강생은 약 5%로, 유지되는 학습자의 비율이 매우 낮다는 것을 확인할 수 있었습니다.강의 개수별 수강생 수를 보면 한 강의만 수강한 학습자가 압도적으로 많았고, 강의 개수가 많아질수록 수강생 수가 급격히 감소하는 경향을 보였습니다. 연령대별 재방문자 분포를 분석해보면, 10대와 20대의 재방문율이 가장 높았습니다. 특히 10대의 여러 번 재방문율은 약 7..

2025-05-15 실전 프로젝트 5 태블로 시작

내가 만든 대시보드 스케치를 위주로 진행할 것이다.(튜터님한테 칭찬도 들음 ㅎㅎ) 빅넘버: 전체 회원 수이건 그냥 USER_ID 고유 카운트 하면 끝! 빅넘버 : 재방문율우선 나는 여기에 재방문 횟수로 필터를 걸어야하기 때문에 필터부터 만들어준다. 방문 범위 그룹IF [Multiple] >= 1 AND [Multiple] = 2 AND [Multiple] = 6 AND [Multiple] = 11 AND [Multiple] 이 필터를 이용해서 재방문자 수를 구한다. 범위별 사용자 수{FIXED [방문 범위 그룹] : COUNTD([userid DI])} 총 사용자 수{FIXED : COUNTD([userid DI])}여기서 FIXED를 안하면 비율 계산할 때 필터에 영향 받아서 이상하게 됨. 범위별..

2025-05-14 실전 프로젝트 3

오늘은 튜터님한테 지금까지 한 걸 팀원 모두 한 명씩 자기가 한 걸 설명했다.튜터님이 내가 한 방식이 가장 잘했다고 나처럼 해야한다고 말씀하셔서 뿌-듯!!!문제정의부터 코드 설명, 결론 도출까지 좋았다고 칭찬해주셨다 !! 대시보드 스케치 과정 오늘은 이제 태블로 스케치 하는 날 ~!]캔바로 서로 공유해가며 대시보드를 만들기로 했다. 개인별 대시보드강의 횟수별 특징연령대별 재방문 비율학습일과 수료율, 콘텐츠관계내가 할 대시보드는 이거다! 내가 계속 하던 거라 마음이 편하다 z 패턴 대시보드 잘 구성하는 방법 내가 만든 스케치캔바에는 그래프 기능이 있어서 그걸 사용해서 대략 그래프를 만들어 보았다. 이랬는데 우리팀 팀장님이 재방문 몇 번했는지가 중요할 것 같다고 하셔서 그 지표를 다시 한 번 봐야할 것..