데이터분석 6기/본캠프 65

2025-05-13 통계 검증 및 인사이트 정리

문제 정의 : 재방문율이 너무 낮다저번에는 시간 순서로 다음 강의를 듣는지 안듣는지였다면 이번에는고객이 한 강의만 들었는지 여러 강의를 들었는지 보는 multiple 컬럼을 만들었다.df['multiple'] = df['userid_DI'].duplicated(keep=False)d = df.groupby('userid_DI').agg( multiple=('multiple', 'first'), age_group=('age_group', 'first')).reset_index()sns.countplot(x='multiple',data=d)plt.title('한 강의만 본 학생 vs 여러 강의를 본 학생')for p in plt.gca().patches: plt.text(p.get_x() +..

2025-05-12 실전프로젝트 2 - 학습일 별로 데이터 분류

최종 데이터 전처리# 불필요한 컬럼 드랍df.drop(['roles', 'incomplete_flag', 'nplay_video'], axis=1, inplace=True)# 인적사항 결측치 제거 df.dropna(subset=['LoE_DI', 'YoB', 'gender'], inplace=True)# ndays_act 조건에 맞는 행 삭제df = df[~((df['ndays_act'].notnull()) & (df['ndays_act'] >= 2) & (df['last_event_DI'].isnull()))]# last_event_DI를 start_time_DI로 대체df['last_event_DI'].fillna(df['start_time_DI'], inplace=True)# 나머지 결측치는 0으..

2025-05-09 실전프로젝트 1일차 - EDA

주제선정우리조는 교육 데이터를 주제로 실전 프로젝트를 진행하기로 했다. 온라인 강의 플랫폼에 저장된 데이터를 활용해서 해당 서비스의 현황을 확인할 수 있는 대시보드를 생성합니다.강의 참여자들의 수강 기록을 바탕으로 해당 플랫폼과 각 강의별 참여도를 확인할 수 있는 대시보드 생성온라인 강의 및 서비스 활성화 정도를 확인할 수 있는 지표 생성생성된 대시보드를 바탕으로 현황 분석 및 개선 방안 제안 인적사항 별 EDA #나이 컬럼 생성df['age'] = df['start_time_DI'].dt.year - df['YoB']sns.histplot(df['age'], bins=30, kde=True)plt.show() 컬럼이 태어난 날짜밖에 없어서 시작 시간을 기준으로 나이를 다시 계산해주고 히스토그램으로 분..

2025-05-08 태블로 개인과제

Big Number문제 1. Happiness Score, GDP per Capita, Healthy Life Expectancy의 평균값을 나타내는 세 개의 Big Numbers를 만들어주세요.텍스트 -> 숫자서식 -> 숫자(사용자 지정) 들어가면 소수 자릿수 선택 가능함 지역별 비교 시각화Region별 평균 Happiness Score를 나타내는 Bar Chart를 생성해주세요. Scatter Plot Region별 평균 Happiness Score를 나타내는 Bar Chart를 생성해주세요.X축 평균, Y축 평균 값을 추가해주세요.Trend Line(추세선)을 추가하여 관계를 시각화해주세요.열과 행에 수치형을 넣고, 측정값이 아닌 차원으로 바꾸면 scatter plot 완성 축의 평균값 계산 ..

2025-05-07 태블로 실습

태블로 4주차 필터 만들기 필터 들어가서 상위 10개만 출력 가능 그냥 끌어서 필터 만들 수도 있음 필터 표시를 하면 특정 지역만 선택해서 상위10개 선택할 수 있음 근데 이러면 지역별 상위 10개가 아니라, 고객별 순위에서 지역이 선택되기 때문에 핆터 우선 순위를 바꿔야 한다. 컨텍스트에 추가하면 우선순위가 더 높아지고 결과도 잘 출력되는 것을 알 수 있음. 테이블 계산 구성 비율로 계산 하고싶으면 퀵테이브 계산에서 선택 가능 테이블 계산에서 서브 카테고리만 선택하면, 카테고리 안에서 서브 카테고리가 몇 % 비율의 매출을 차지하는지 볼 수 있다. 태블로 함수 논리함수 IF, CASE WHEN IF SUM([Sales]) >= 10000THEN '상위 매출' ELSE '하위 매출' END CASE..

20205-05-02 태블로 실습

태블로 - 선그래프 열과 행에 원하는 컬럼명을 넣고, 마우스를 대면 측정값으로 변경이 가능하다.이 때 열이 x축, 행이 y축이라고 생각하면 된다. 레이블에서 마크 레이블 표시를 하면 값에 대한 레이블이 나온다. 경로에서는 라인 유형을 변경할 수 있다 그래프 크기도 화면에 맞게 맞출 수 있다. 막대그래프막대그래프도 동일하게 값을 넣으면 된다. 색상과 테두리까지 변경 가능함! 오름차순, 내림차순 정렬이 가능함. 아니면 직접 선택해서 정렬할 수도 있음 맵차트 위도, 경도가 있는 데이터를 끌어서 시트에 놓는다 표현 방식을 보면 지도 모양으로 바꿀 수 있음. 표현하고자 하는 컬럼을 색상 에 끌어 놓는다 생긴 색상 밑에 같은 컬럼을 놓고레이블로 바꿔주고, 평균값으로 바꿔주면 이렇게 나온다 지역명도 레이..