2025-03-31 통계학 기초

데이터분석 6기/본캠프

2025-03-31 통계학 기초

seyeon1130 2025. 3. 31. 20:47

파이썬 라이브 세션

dir(클래스 명) 클래스 내 어떤 함수가 있는지
help(함수 명) 함수 설명

for _ in : for문 안에 변수를 안쓸 때는 _사용 ->관례

if not input_list: ->리스트가 비어있다

리스트 컴프리헨션
lst = [(i+1) for i in input_list]

통계학 기초 1주차

기술 통계와 추론 통계

기술 통계 : 데이터를 요약하고 설명 (평균값, 중앙값 등으로)
분산: 값들이 평균으로부터 얼마나 떨어져 있는지, 분산이 크면 값들이 크게 흩어져있다는 뜻 ,작으면 평균에 모여있다는 뜻 (값 - 평균)**2를 모두 더하고 데이터 개수로 나눔
표준편차: 분산의 제곱근

추론 통계 : 데이터의 일부를 가지고 전체 데이터를 추론함, 가설검증, 신뢰구간 등으로 검증
신뢰구간: 모집단의 평균이 특정 범위 내에 있을 거라는 확률 (일반적으로 95%가 신뢰구간)
가설검정: 귀무가설(검증하려는 가설이 틀렸다는 가설), 대립가설(귀무가설의 반대로 검증하려는 가설)

#평균
np.mean(data)
#중앙값
np.median(data)

#분산
np.var(data)
#표준편차
np.std(data)

수치형 데이터: 숫자(히스토그램)

범주형 데이터: 글자(최빈값)(막대그래프, 파이차트)

sns.pairplot(data)
#데이터 안에 있는 모든 컬럼들끼리 산점도를 다 그림
#대각선은 자기 자신과의 산점도 대신 히스토그램으로 대체 됨.

모집단과 표본

모집단: 전체(전수조사)

표본: 부분(표본조사)

표본은 많을수록,무작위로 뽑을수록 오차가 줄어든다.

신뢰구간 : 표본평균+- z * 표준 오차(z=1.96)

t분포로 한다고 했을 때

scipy.stats.t.interval(alpha, df, loc=0, scale=1)

alpha
- 신뢰 수준(confidence level)을 의미합니다. 예를 들어, 95% 신뢰 구간을 원하면 alpha를 0.95로 설정합니다.
df
- 자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기에서 1을 뺀 값으로 설정합니다 (df = n - 1).
loc
- 위치(parameter of location)로, 일반적으로 표본 평균을 설정합니다.
scale
- 스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정합니다. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 (scale = sample_std / sqrt(n)).

정규 분포

평균 =0, 분산=1인 정규분포가 표준 정규분포

데이터가 많을수록 정규분포를 따른다.

긴꼬리분포

아무리 데이터가 많아져도 정규분포 안됨

일부 데이터의 영향이 큰 편임

스튜던트 t분포

데이터가 적을 때 정규분포 대신 사용

모집단의 표준편차를 알 수 없을 때 사용

카이제곱 분포

상관관계를 따지고 싶은 독립변수가 서로 완전히 다른 변수일 떄(남자/여자)

독립성 검정, 적합성 검정에 사용됨

이항분포

결과가 두 개인 것 : 성공/실패, 앞면/뒷면 ->횟수를 확률적으로 그림

연속된 값을 가지지 않기 때문에 그래프가 띄엄띄엄 그려짐

푸아송 분포

드물게 일어나는 일에 대한 분포

단위시간/단위면적당 발생하는 사건의 수

예)특정 시간의 콜센터 전화량, 특정 공간에서 교통사고

☑️데이터 수가 충분하다 → (무조건) 정규분포

☑️ 데이터 수가 작다 → 스튜던트 t 분포

☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)

☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포

☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포

☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포

'데이터분석 6기 > 본캠프' 카테고리의 다른 글

2025-04-03 통계 & 파이썬 라이브 세션 (0)	2025.04.03
2025-04-02 통계학 기초 2 (1)	2025.04.02
2025-03-28 기초 프로젝트 끝나고 회고...?? (0)	2025.03.28
[TIL]2025-03-27 기초 프로젝트 준비 끝! (0)	2025.03.27
[TIL] 2025-03-26 기초 프로젝트 5 (0)	2025.03.26

현재글2025-03-31 통계학 기초

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

seyeon1130 님의 블로그