데이터분석 6기/본캠프 68

2025-05-21 API KEY 등록

네이버https://developers.naver.com/main/ NAVER Developers네이버 오픈 API들을 활용해 개발자들이 다양한 애플리케이션을 개발할 수 있도록 API 가이드와 SDK를 제공합니다. 제공중인 오픈 API에는 네이버 로그인, 검색, 단축URL, 캡차를 비롯 기계번역, 음developers.naver.com 애플리케이션 등록에 들어가서 약관동의와 정보를 등록해준다설정은 다음과 같이 해준다. Documents에서 활용 방법 확인 가능함.유튜브https://console.developers.google.com/ Google 클라우드 플랫폼로그인 Google 클라우드 플랫폼으로 이동accounts.google.com무료료 시작하기 Youtube Data API v3 검색 저거 누..

2025-05-13 통계 검증 및 인사이트 정리

문제 정의 : 재방문율이 너무 낮다저번에는 시간 순서로 다음 강의를 듣는지 안듣는지였다면 이번에는고객이 한 강의만 들었는지 여러 강의를 들었는지 보는 multiple 컬럼을 만들었다.df['multiple'] = df['userid_DI'].duplicated(keep=False)d = df.groupby('userid_DI').agg( multiple=('multiple', 'first'), age_group=('age_group', 'first')).reset_index()sns.countplot(x='multiple',data=d)plt.title('한 강의만 본 학생 vs 여러 강의를 본 학생')for p in plt.gca().patches: plt.text(p.get_x() +..

2025-05-12 실전프로젝트 2 - 학습일 별로 데이터 분류

최종 데이터 전처리# 불필요한 컬럼 드랍df.drop(['roles', 'incomplete_flag', 'nplay_video'], axis=1, inplace=True)# 인적사항 결측치 제거 df.dropna(subset=['LoE_DI', 'YoB', 'gender'], inplace=True)# ndays_act 조건에 맞는 행 삭제df = df[~((df['ndays_act'].notnull()) & (df['ndays_act'] >= 2) & (df['last_event_DI'].isnull()))]# last_event_DI를 start_time_DI로 대체df['last_event_DI'].fillna(df['start_time_DI'], inplace=True)# 나머지 결측치는 0으..

2025-05-09 실전프로젝트 1일차 - EDA

주제선정우리조는 교육 데이터를 주제로 실전 프로젝트를 진행하기로 했다. 온라인 강의 플랫폼에 저장된 데이터를 활용해서 해당 서비스의 현황을 확인할 수 있는 대시보드를 생성합니다.강의 참여자들의 수강 기록을 바탕으로 해당 플랫폼과 각 강의별 참여도를 확인할 수 있는 대시보드 생성온라인 강의 및 서비스 활성화 정도를 확인할 수 있는 지표 생성생성된 대시보드를 바탕으로 현황 분석 및 개선 방안 제안 인적사항 별 EDA #나이 컬럼 생성df['age'] = df['start_time_DI'].dt.year - df['YoB']sns.histplot(df['age'], bins=30, kde=True)plt.show() 컬럼이 태어난 날짜밖에 없어서 시작 시간을 기준으로 나이를 다시 계산해주고 히스토그램으로 분..