데이터분석 6기/본캠프

2025-03-31 통계학 기초

seyeon1130 2025. 3. 31. 20:47

파이썬 라이브 세션

dir(클래스 명) 클래스 내 어떤 함수가 있는지
help(함수 명) 함수 설명

for _ in : for문 안에 변수를 안쓸 때는 _사용 ->관례

if not input_list: ->리스트가 비어있다

리스트 컴프리헨션
lst = [(i+1) for i in input_list]

 

통계학 기초 1주차

기술 통계와 추론 통계
기술 통계 : 데이터를 요약하고 설명 (평균값, 중앙값 등으로)
분산: 값들이 평균으로부터 얼마나 떨어져 있는지, 분산이 크면 값들이 크게 흩어져있다는 뜻 ,작으면 평균에 모여있다는 뜻 (값 - 평균)**2를 모두 더하고 데이터 개수로 나눔
표준편차: 분산의 제곱근
추론 통계 : 데이터의 일부를 가지고 전체 데이터를 추론함, 가설검증, 신뢰구간 등으로 검증
신뢰구간: 모집단의 평균이 특정 범위 내에 있을 거라는 확률 (일반적으로 95%가 신뢰구간)
가설검정:  귀무가설(검증하려는 가설이 틀렸다는 가설), 대립가설(귀무가설의 반대로 검증하려는 가설)
#평균
np.mean(data)
#중앙값
np.median(data)
#분산
np.var(data)
#표준편차
np.std(data)

 

수치형 데이터: 숫자(히스토그램)

범주형 데이터: 글자(최빈값)(막대그래프, 파이차트)

 

sns.pairplot(data)
#데이터 안에 있는 모든 컬럼들끼리 산점도를 다 그림
#대각선은 자기 자신과의 산점도 대신 히스토그램으로 대체 됨.
모집단과 표본

 

 

모집단: 전체(전수조사)

표본: 부분(표본조사)

표본은 많을수록,무작위로 뽑을수록 오차가 줄어든다.

신뢰구간 : 표본평균+- z * 표준 오차(z=1.96)

 

t분포로 한다고 했을 때

scipy.stats.t.interval(alpha, df, loc=0, scale=1)
  • alpha
    • 신뢰 수준(confidence level)을 의미합니다. 예를 들어, 95% 신뢰 구간을 원하면 alpha를 0.95로 설정합니다.
  • df
    • 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기에서 1을 뺀 값으로 설정합니다 (df = n - 1).
  • loc
    • 위치(parameter of location)로, 일반적으로 표본 평균을 설정합니다.
  • scale
    • 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정합니다. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 (scale = sample_std / sqrt(n)).
정규 분포

 

평균 =0, 분산=1인 정규분포가 표준 정규분포

데이터가 많을수록 정규분포를 따른다.

 

긴꼬리분포

 

아무리 데이터가 많아져도 정규분포 안됨

일부 데이터의 영향이 큰 편임

스튜던트 t분포

데이터가 적을 때 정규분포 대신 사용

모집단의 표준편차를 알 수 없을 때 사용

카이제곱 분포

 

상관관계를 따지고 싶은 독립변수가 서로 완전히 다른 변수일 떄(남자/여자)

독립성 검정, 적합성 검정에 사용됨

 

이항분포

 

결과가 두 개인 것 : 성공/실패, 앞면/뒷면 ->횟수를 확률적으로 그림

연속된 값을 가지지 않기 때문에 그래프가 띄엄띄엄 그려짐

 

푸아송 분포

 

드물게 일어나는 일에 대한 분포

단위시간/단위면적당 발생하는 사건의 수

예)특정 시간의 콜센터 전화량, 특정 공간에서 교통사고

 

☑️데이터 수가 충분하다 → (무조건) 정규분포

☑️ 데이터 수가 작다 → 스튜던트 t 분포

☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)

☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포

☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포

☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포