데이터분석 6기/본캠프 91

2025-04-10 머신러닝 4

통계 라이브 세션 삼각형 형식으로 히트맵 보기(같은 결과 제외된 것)# 삼각형 형식으로 히트맵 보여주기mask = np.triu(np.ones_like(corr_matrix, dtype=bool)) sns.heatmap(corr_matrix,annot=True, cmap='BrBG', linewidths=0.5, mask=mask, fmt=".2f") 회귀선 그리기# 회귀선 추가하기 plt.scatter(X, y, alpha=0.5, color='green', marker='*')plt.plot(X, model.predict(X), color='red', linewidth=2) 이거 보여주기 위함 OLSimport statsmodels.api as smresults = sm.OLS(y, sm.add_co..

2025-04-09 머신러닝 3

통계 라이브세션 데이터 타입에 따라 선형회귀, 로지스텍 회귀로나눌 수 있다 선형 회귀 : 원인과 결과가 모두 연속형원인이 하나면 단순회귀, 두 개  이상이면 다중회귀 로지스틱 회귀: 원인이 연속형 혹은 범주형, 결과는 이분형 범주형 혹은 순서가 없는 범주형이진 로지스틱 회귀 : 결과가 이분형일 때다중 로지싁 회귀: 결과가 순서 없는 범주형일 때 결정계수 R독립변수와 종속 변수의 관계를 나타내는 계수, 설명력이라고도 함설명력(R²)은 전체오류중 회귀를 함으로써 얼마나 개선되었는가를 의미설명력은 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 좋다는 것을 의미 선형회귀 시 검증하는 순서1. 회귀모델 설명력(R2)2. 회귀모델이 통계적으로 유의미한지(f검정)3. 독립변수와 종속변수 간 선형관계가 ..

2025-04-08 머신러닝 2

머신러닝 2강 이어서정규화, 표준화 스케일링 안에 정규화, 표준화가 포함 정규화: 0-1 사이 수로 변환(MinMax Scaler)원리 : 최솟값 빼고 전체 범위로 나눔원래 분포 유지from sklearn.preprocessing import MinMaxScaler# 스케일링을 적용할 컬럼만 선정cols_to_scale = ['impressions', 'clicks', 'conversions', 'cost', 'revenue']# MinMaxScaler 객체 생성(기본 스케일: [0,1])minmax_scaler = MinMaxScaler()# fit_transform을 통해 스케일링된 결과를 데이터프레임으로 변환df_minmax_scaled = pd.DataFrame(minmax_scaler.fit_t..

2025-04-07 머신러닝 1

파이썬 라이브 세션t검정분산 모를때귀무가설 : 여성금액과 남성 금액 차이가 없을 것이다 대립가설: 있을 것이다 여성의 구매 금액과 남성의 구매 금액만 각각 데이터프레임에 넣음t, pvalue = stats.ttest_ind(f_df,m_df)z검정 모 평균이 특정한 값인지 아닌 지에 대한 검정귀무가설: 평균이 ~일 것이다 대립가설: 평균이 ~아닐거이다 value에 평균 넣어주기z_stat , pvalue = ztest(df['review'], value = 3.0)z 통계량 +-1.96 이상이면 멀리 떨어져있다./생각하지 말고 pvalue만 보기카이제곱 - 범주형 독립성 검정  귀무가설 : 독립적이다 빈도표를 먼저 그려야함result = pd.crosstab(df['Gender'], df['Subscri..

2025-04-04 파이썬 윈도우 함수 & 상관계수

수준별 학습반 - 파이썬 윈도우 함수파이썬 윈도우 함수Shift, Rolling, Expanding시계열 데이터와 잘쓰임 Shiftdf.shift(1).head() #전에 날짜 땡겨옴, -1이면 뒤에 날자 땡겨옴df.shift(periods=3,freq='D') # 3일 이동df.shift(periods=3,freq='infer') # df의 날짜간격을 분석해서 적당한 주기를 이동문법DataFrame.shift(periods=기간, freq=None, axis=0, fill_value='비었음')주요 파라미터periods: 이동할 기간. 음수 또는 양수로 입력.freq: 선택 매개변수. Y, M, D, H, T, S, Timestamp, 'Infer' 등이 위치fill_value: shift로 인해 생긴..

2025-04-03 통계 & 파이썬 라이브 세션

통계 라이브 세션 독립변수 : 원인이 되는 변수(설명변수)종속변수 : 결과가 되는 변수(결과변수)모수: 모집단을 대표하는 값모수통계: 모집단이 정규분포를 따른다는 가정 하에비모수통계: 모집단이 정규분포를 따르지 않는 가정 하에 사용 ( 규모가 작을 때, 평균 분산 이런거 사용 안함) ->거의 안쓸듯결과 변수가 연속형 범주형이냐에 따라 -> 독립변수가 연속형이냐 범주형이냐에 따라 또 나뉘고 그 다음 모수, 비모수로 나뉨유의수준 : 신뢰수준과 반대되는 개념. 오류를 얼마만큼 허용할 것인지. 검정통계량 : 예를 들어, t-검정에서 t값이 임계값보다 크면 귀무가설을 기각검정통계량P-value표본 데이터로 계산된 숫자값귀무가설이 참일 때, 관측된 값이 나올 확률임계값과 비교해서 가설 기각 여부 판단유의수준과 비교..

2025-04-02 통계학 기초 2

통계 라이브 세션 표본 평균 ->정규분포 따름(중심극한정리)표본 분산 -> 카이제곱 분포 따름 히스토그램 ->도수분포표 시각화도수 : 특정 구간에서 발생한 값의 수상대 도수:전체 중에서 도수를 나눈 수 표준 정규분포(평균0, 분산1)을 통일하기 위해 정규화 진행표준화(standard scaler) 공식: 확률변수 X (값) 에서 평균 m을 빼고 표준편차로 나눈 값신뢰수준이 높아지면 높아질 수록 범위가 넓어짐. 그래서 0.95보다 0.99가 좋다고 볼 수 없음. import scipy.stats as stdf = len(sample1) - 1 # 자유도 : 샘플 개수 - 1mu = np.mean(sample1) # 표본 평균se = st.sem(sample1) # 표준 오차# 95% 신뢰구간st.t.int..

2025-03-31 통계학 기초

파이썬 라이브 세션dir(클래스 명) 클래스 내 어떤 함수가 있는지 help(함수 명) 함수 설명 for _ in : for문 안에 변수를 안쓸 때는 _사용 ->관례 if not input_list: ->리스트가 비어있다 리스트 컴프리헨션 lst = [(i+1) for i in input_list] 통계학 기초 1주차기술 통계와 추론 통계기술 통계 : 데이터를 요약하고 설명 (평균값, 중앙값 등으로)분산: 값들이 평균으로부터 얼마나 떨어져 있는지, 분산이 크면 값들이 크게 흩어져있다는 뜻 ,작으면 평균에 모여있다는 뜻 (값 - 평균)**2를 모두 더하고 데이터 개수로 나눔표준편차: 분산의 제곱근추론 통계 : 데이터의 일부를 가지고 전체 데이터를 추론함, 가설검증, 신뢰구간 등으로 검증신뢰구간: 모집단의 ..

2025-03-28 기초 프로젝트 끝나고 회고...??

파이차트 vs 도넛차트 급하게 프로젝트 하느라 이 그래프에 대한 설명이 부족했다., plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90) 이게 그냥 기본 파이차트 wedgeprops={'width': 0.3}저 pie 괄호 안에 같이 넣어주면 넓이 조절 되면서 저렇게 도넛이 생긴다! 차트에 글자 넣기ax.text(x, y, text, ha, va, fontsize, color)x, y: 텍스트를 표시할 좌표 (0, 0)은 축의 중심text: 표시할 텍스트 내용. 여기선 status라는 변수가 텍스트로 사용돼.ha: 수평 정렬 방식 (horizontal alignment)   'center': 텍스트를 중심 정렬.   'left': 텍스트를 왼쪽..

[TIL]2025-03-27 기초 프로젝트 준비 끝!

드디어 발표 자료까지 다 만들고 이제 내일 발표만 하면 된다!다른 팀원분들이 하신 자료까지 올리기는 좀 그래서 내가 한 부분만 자료 올려야징 ㅎㅎ 나는 이번 프로젝트에서 온라인/오프라인 구매 현황과 탈퇴 회원 현황을 조사했다! 온라인/오프라인 구매 현황  탈퇴회원 현황  이건 다른 분들 분석 + 내 분석 ppt 담당해주신 팀원분이 너무 잘만들어주셔서 기분이 좋았다!! 이번 기초프로젝트 팀원분들 너무 좋았는데 내일이 마지막이라니 ㅜㅜㅜㅜ 아쉽당...