통계 라이브 세션
독립변수 : 원인이 되는 변수(설명변수)
종속변수 : 결과가 되는 변수(결과변수)
모수: 모집단을 대표하는 값
모수통계: 모집단이 정규분포를 따른다는 가정 하에
비모수통계: 모집단이 정규분포를 따르지 않는 가정 하에 사용 ( 규모가 작을 때, 평균 분산 이런거 사용 안함) ->거의 안쓸듯
결과 변수가 연속형 범주형이냐에 따라 -> 독립변수가 연속형이냐 범주형이냐에 따라 또 나뉘고 그 다음 모수, 비모수로 나뉨
유의수준 : 신뢰수준과 반대되는 개념. 오류를 얼마만큼 허용할 것인지.
검정통계량 : 예를 들어, t-검정에서 t값이 임계값보다 크면 귀무가설을 기각
검정통계량 | P-value |
표본 데이터로 계산된 숫자값 | 귀무가설이 참일 때, 관측된 값이 나올 확률 |
임계값과 비교해서 가설 기각 여부 판단 | 유의수준과 비교해서 가설 기각 여부 판단 |
통계 기법마다 다르게 계산됨 (t값, z값, χ²값 등) | 0에서 1 사이의 확률 값으로 표현됨 |
내가 이해하기론 검정통계량 값은 대립가설 쪽 확률이고, p값은 귀무가설 쪽 확률이다.
수준별 학습반
Wide Format
- 각 주제 또는 관찰단위가 단일 행으로 표시되는 구조
- 한 대상에서 측정한 여러 측정값을 모두 한 행에 표시
Long Format
- 하나의 열에 데이터를 나타내고 다른 열에 데이터에 대응하는 변수를 나타낸 형태
- "긴 형식"이라고도 하며, 데이터를 기록할 때 하나의 관찰값(예: 행)이 하나의 행에 위치하도록 하는 형태
분석가는 롱포맷을 와이드 포맷으로 바꾸는 작업을 한다.(피벗테이블, 스택 등)
1. Transpose
문법 : 데이터프레임명.T
:열과 행을 바꿔주는 함수
2.pivot table
문법: pd.pivot_table(데이터프레임명, index=컬럼명, columns=컬럼명, values=컬럼명, aggfunc=연산방식) -> 컬럼은 선택사항
3.Melt(와이드->롱)
피봇테이블을 기본 형태로 바꿔줌
문법 : 데이터프레임명.melt(id_vars=None, value_vars=None, var_name=None, value_name='value')
• id_vars : 기준이 될 열
• value_vars : 기준열에 대한 하위 카테고리를 나열할 열을 선택 ->열 이름이 값으로 들어감 ->그 열의 값은 value에 들어감
• var_name : 하위 카테고리 열의 이름 설정
• value_name : 값이 되는 열의 이름 설정
4. Stack(와이드->롱)
컬럼을 인덱스 레벨로 변환
문법 : 데이터프레임명.stack(level=-1, fill_value=None )
5.Unstack(롱->와이드)
인덱스 레벨을 컬럼 레벨로 올림
문법 : 데이터프레임명.unstack(level=-1, fill_value=None )
멀티 인덱스 사용법
pd.MultiIndex.from_tuples([('Purchase', 'Amount'), ('Purchase', 'Review'),
('Info', 'Category'), ('Info', 'Season')])
'데이터분석 6기 > 본캠프' 카테고리의 다른 글
2025-04-07 머신러닝 1 (4) | 2025.04.07 |
---|---|
2025-04-04 파이썬 윈도우 함수 & 상관계수 (0) | 2025.04.04 |
2025-04-02 통계학 기초 2 (1) | 2025.04.02 |
2025-03-31 통계학 기초 (0) | 2025.03.31 |
2025-03-28 기초 프로젝트 끝나고 회고...?? (0) | 2025.03.28 |