데이터분석 6기/본캠프

2025-04-03 통계 & 파이썬 라이브 세션

seyeon1130 2025. 4. 3. 19:41

통계 라이브 세션

 

독립변수 : 원인이 되는 변수(설명변수)

종속변수 : 결과가 되는 변수(결과변수)

모수: 모집단을 대표하는 값

모수통계: 모집단이 정규분포를 따른다는 가정 하에

비모수통계: 모집단이 정규분포를 따르지 않는 가정 하에 사용 ( 규모가 작을 때, 평균 분산 이런거 사용 안함) ->거의 안쓸듯

결과 변수가 연속형 범주형이냐에 따라 -> 독립변수가 연속형이냐 범주형이냐에 따라 또 나뉘고 그 다음 모수, 비모수로 나뉨

유의수준 : 신뢰수준과 반대되는 개념. 오류를 얼마만큼 허용할 것인지.

 

검정통계량 : 예를 들어, t-검정에서 t값이 임계값보다 크면 귀무가설을 기각

검정통계량 P-value
표본 데이터로 계산된 숫자값 귀무가설이 참일 때, 관측된 값이 나올 확률
임계값과 비교해서 가설 기각 여부 판단 유의수준과 비교해서 가설 기각 여부 판단
통계 기법마다 다르게 계산됨 (t값, z값, χ²값 등) 0에서 1 사이의 확률 값으로 표현됨

 

내가 이해하기론 검정통계량 값은 대립가설 쪽 확률이고, p값은 귀무가설 쪽 확률이다.

 

수준별 학습반

 Wide Format

  • 각 주제 또는 관찰단위가 단일 행으로 표시되는 구조
  • 한 대상에서 측정한 여러 측정값을 모두 한 행에 표시

 Long Format

  • 하나의 열에 데이터를 나타내고 다른 열에 데이터에 대응하는 변수를 나타낸 형태
  • "긴 형식"이라고도 하며, 데이터를 기록할 때 하나의 관찰값(예: 행)이 하나의 행에 위치하도록 하는 형태

분석가는 롱포맷을 와이드 포맷으로 바꾸는 작업을 한다.(피벗테이블, 스택 등)

 

 

1. Transpose

문법 : 데이터프레임명.T

:열과 행을 바꿔주는 함수

 

2.pivot table

문법: pd.pivot_table(데이터프레임명, index=컬럼명, columns=컬럼명, values=컬럼명, aggfunc=연산방식) -> 컬럼은 선택사항

 

3.Melt(와이드->롱)

피봇테이블을 기본 형태로 바꿔줌

문법 : 데이터프레임명.melt(id_vars=None, value_vars=None, var_name=None, value_name='value')

• id_vars : 기준이 될 열

• value_vars : 기준열에 대한 하위 카테고리를 나열할 열을 선택 ->열 이름이 값으로 들어감 ->그 열의 값은 value에 들어감

• var_name : 하위 카테고리 열의 이름 설정

• value_name : 값이 되는 열의 이름 설정

 

 

4. Stack(와이드->롱)

컬럼을 인덱스 레벨로 변환

문법 : 데이터프레임명.stack(level=-1, fill_value=None )  

 

5.Unstack(롱->와이드)

인덱스 레벨을 컬럼 레벨로 올림

문법 : 데이터프레임명.unstack(level=-1, fill_value=None )

 

 

멀티 인덱스 사용법

pd.MultiIndex.from_tuples([('Purchase', 'Amount'), ('Purchase', 'Review'),
                                              ('Info', 'Category'), ('Info', 'Season')])