데이터분석 6기/본캠프 91

2025-05-13 통계 검증 및 인사이트 정리

문제 정의 : 재방문율이 너무 낮다저번에는 시간 순서로 다음 강의를 듣는지 안듣는지였다면 이번에는고객이 한 강의만 들었는지 여러 강의를 들었는지 보는 multiple 컬럼을 만들었다.df['multiple'] = df['userid_DI'].duplicated(keep=False)d = df.groupby('userid_DI').agg( multiple=('multiple', 'first'), age_group=('age_group', 'first')).reset_index()sns.countplot(x='multiple',data=d)plt.title('한 강의만 본 학생 vs 여러 강의를 본 학생')for p in plt.gca().patches: plt.text(p.get_x() +..

2025-05-12 실전프로젝트 2 - 학습일 별로 데이터 분류

최종 데이터 전처리# 불필요한 컬럼 드랍df.drop(['roles', 'incomplete_flag', 'nplay_video'], axis=1, inplace=True)# 인적사항 결측치 제거 df.dropna(subset=['LoE_DI', 'YoB', 'gender'], inplace=True)# ndays_act 조건에 맞는 행 삭제df = df[~((df['ndays_act'].notnull()) & (df['ndays_act'] >= 2) & (df['last_event_DI'].isnull()))]# last_event_DI를 start_time_DI로 대체df['last_event_DI'].fillna(df['start_time_DI'], inplace=True)# 나머지 결측치는 0으..

2025-05-09 실전프로젝트 1일차 - EDA

주제선정우리조는 교육 데이터를 주제로 실전 프로젝트를 진행하기로 했다. 온라인 강의 플랫폼에 저장된 데이터를 활용해서 해당 서비스의 현황을 확인할 수 있는 대시보드를 생성합니다.강의 참여자들의 수강 기록을 바탕으로 해당 플랫폼과 각 강의별 참여도를 확인할 수 있는 대시보드 생성온라인 강의 및 서비스 활성화 정도를 확인할 수 있는 지표 생성생성된 대시보드를 바탕으로 현황 분석 및 개선 방안 제안 인적사항 별 EDA #나이 컬럼 생성df['age'] = df['start_time_DI'].dt.year - df['YoB']sns.histplot(df['age'], bins=30, kde=True)plt.show() 컬럼이 태어난 날짜밖에 없어서 시작 시간을 기준으로 나이를 다시 계산해주고 히스토그램으로 분..

2025-05-08 태블로 개인과제

Big Number문제 1. Happiness Score, GDP per Capita, Healthy Life Expectancy의 평균값을 나타내는 세 개의 Big Numbers를 만들어주세요.텍스트 -> 숫자서식 -> 숫자(사용자 지정) 들어가면 소수 자릿수 선택 가능함 지역별 비교 시각화Region별 평균 Happiness Score를 나타내는 Bar Chart를 생성해주세요. Scatter Plot Region별 평균 Happiness Score를 나타내는 Bar Chart를 생성해주세요.X축 평균, Y축 평균 값을 추가해주세요.Trend Line(추세선)을 추가하여 관계를 시각화해주세요.열과 행에 수치형을 넣고, 측정값이 아닌 차원으로 바꾸면 scatter plot 완성 축의 평균값 계산 ..

2025-05-07 태블로 실습

태블로 4주차 필터 만들기 필터 들어가서 상위 10개만 출력 가능 그냥 끌어서 필터 만들 수도 있음 필터 표시를 하면 특정 지역만 선택해서 상위10개 선택할 수 있음 근데 이러면 지역별 상위 10개가 아니라, 고객별 순위에서 지역이 선택되기 때문에 핆터 우선 순위를 바꿔야 한다. 컨텍스트에 추가하면 우선순위가 더 높아지고 결과도 잘 출력되는 것을 알 수 있음. 테이블 계산 구성 비율로 계산 하고싶으면 퀵테이브 계산에서 선택 가능 테이블 계산에서 서브 카테고리만 선택하면, 카테고리 안에서 서브 카테고리가 몇 % 비율의 매출을 차지하는지 볼 수 있다. 태블로 함수 논리함수 IF, CASE WHEN IF SUM([Sales]) >= 10000THEN '상위 매출' ELSE '하위 매출' END CASE..

20205-05-02 태블로 실습

태블로 - 선그래프 열과 행에 원하는 컬럼명을 넣고, 마우스를 대면 측정값으로 변경이 가능하다.이 때 열이 x축, 행이 y축이라고 생각하면 된다. 레이블에서 마크 레이블 표시를 하면 값에 대한 레이블이 나온다. 경로에서는 라인 유형을 변경할 수 있다 그래프 크기도 화면에 맞게 맞출 수 있다. 막대그래프막대그래프도 동일하게 값을 넣으면 된다. 색상과 테두리까지 변경 가능함! 오름차순, 내림차순 정렬이 가능함. 아니면 직접 선택해서 정렬할 수도 있음 맵차트 위도, 경도가 있는 데이터를 끌어서 시트에 놓는다 표현 방식을 보면 지도 모양으로 바꿀 수 있음. 표현하고자 하는 컬럼을 색상 에 끌어 놓는다 생긴 색상 밑에 같은 컬럼을 놓고레이블로 바꿔주고, 평균값으로 바꿔주면 이렇게 나온다 지역명도 레이..

2025-05-01 비즈니스 메트릭 & 머신러닝 개인 과제 & 태블로 1-2주차

비즈니스 메트릭Product Goal VS Metricproduct goal : 회사/제품이 나아가고자 하는 방향성, 결과metric : 해당 방향성이 잘 달성되고 있는지 판단하기 위한 수치 기반 지표 좋은 메트릭 smart 프레임워크specific 명확하게 정의할 수 있나measurable 수치로 측정 가능하냐attainable 달성 가능한가relevant 제품 가치와 연결 되는가time-bound 어떤 기준으로 계산하는가 + ADI Actionable: 지표가 실질적인 개선 행동으로 이어질 수 있어야 합니다.Directional: 수치의 변화가 긍정적인지 부정적인지 명확히 해석 가능해야 합니다.Interpretable: 팀원과 이해관계자가 직관적으로 이해할 수 있어야 합니다. 나쁜 매트릭 1. Va..

2025-04-30 심화프로젝트 회고

심화 프로젝트 피드백오늘은 발표회날 !튜터님께서 주신 피드백은 다음과 같다. PCA 를 왜 하는가에 대한 정확한 근거를 제시하기. 각 클러스터 별 인사이트에서 소비성향과 마케팅 전략을 하는데, 그러한 소비성향이라고 결론 지은 근거가 부족하다.정확한 수치로 작성하기. 이렇게 변경! 정확한 피드백이 나오면 추가할 예정. 심화 프로젝트 회고이번 프로젝트에서 내 부족한 역량을 느낀 것 같다.팀장으로서, 자신있는 머신러닝 모델링에 대해서는 팀을 잘 이끌었지만 인사이트를 내는 부분이나 발표 자료 구성은 조금 부족한 부분이 있었던 것 같다. 다음 실전 프로젝트에서는 인사이트를 내는 부분을 좀 더 고심히 생각해보고, 데이터 분석가의 업무가 '설득'인 것만큼 팀원들 뿐만 아니라 다른 팀 사람들에게도 전달력 있도록 발표..