분류 전체보기 160

2025-06-05 spark 가상환경/virtual box, ubuntu, moba

설치https://download.virtualbox.org/virtualbox/7.1.6/VirtualBox-7.1.6-167084-Win.exe (다운로드 및 설치)https://ubuntu.com/download/server/thank-you?version=24.04.2&architecture=amd64 (ubuntu 24.04 server version)https://mobaxterm.mobatek.net/download-home-edition.html (mobaxterm 리눅스 접근 인터페이스)https://code.visualstudio.com (vs code 리눅스 접근 인터페이스)우선 이걸 모두 설치해야한다. 이후 virtualBox 에 접근한다. VirtualBox 네트워크 설정원래는 ..

2025-06-04 최종 프로젝트 셀러 분석

우선 우리의 목적은 셀러를 간단하게 그룹화 한 후 고객 클러스터링을 진행해서 각 셀러 그룹에 어떤 고객들이 있는지 보는 것이 목표이다. 셀러별, 판매하는 상품 가격 분류# 셀러별로 가격대 통계 계산seller_products = df.drop_duplicates(['seller_id', 'product_id'])[['seller_id', 'product_id', 'price']]seller_price_stats = seller_products.groupby('seller_id')['price'].agg(['median', 'std','count']).reset_index()가격대 별로 싼 것만 파는 셀러, 비싼 것만 파는 셀러, 다양하게 파는 셀러로 나누기 위해서 상품가격의 중앙값과 표준편차를 구한다.p..

2025-06-04 최종 프로젝트 데이터 전처리

데이터 프레임 join# 상품 + 카테고리명 번역 join (상품 기준)products = products.merge(category_translation, on='product_category_name', how='left')# 주문 + 고객 정보orders_customers = orders.merge(customers, on='customer_id', how='inner')# 주문 + 아이템orders_customers_items = orders_customers.merge(order_items, on='order_id', how='inner')# 아이템 + 상품 상세orders_customers_items_products = orders_customers_items.merge(products, on..

2025-06-03 공휴일 스터디

주제 변경오늘은 선거일이고 공휴일이지만 우리팀은 모였따... ㅋ왜냐면 주제를 변경해야하기 때문! 기존 베스티에르 데이터는 군집을 하기도 애매하고 가격예측을 하기도 애매하고 인사이트를 내기도 애매하다는 튜터님의 의견이 있었다. 그래서 생각한 건 올리스트 데이터Brazilian E-Commerce Public Dataset by Olist​ Brazilian E-Commerce Public Dataset by Olist100,000 Orders with product, customer and reviews infowww.kaggle.com 요약하자면, 올리스트의 수익구조는 다음과 같다.소상공인을 올리스트가 아마존과 같은 사이트에 판매를 하도록 도와주고 판매 수수료를 받는 것!판매과정을 대신 해주는 거에 ..

2025-05-30 경쟁사 분석/고이비토

크롤링 가능 여부 우선 크롤링 전에 크롤링 해도 되는지 여부를 본다.https://www.koibito.co.kr/robots.txt여기 들어가서 보면User-agent:* Allow:/#20210222User-agent : BLEXBotDisallow : /User-agent : SemrushBotDisallow : /User-agent : BingbotDisallow : /User-agent : PetalBotDisallow : /Sitemap : https://www.koibito.co.kr/sitemap.xml특정 사용자 말고는 다 허용 돼있음!!우리는 크롤링 다 해도 된다~~~! 본격적으로 봐보기https://www.koibito.co.kr/product_list.html?page=1&brand..

2025-05-28 spark 피하기

df[''].nlargest() -> 컬럼중에 가장 큰 값 가져오기, 기본값은 5개지만 괄호 안에 숫자 넣으면 더 가져올 수 있음for app_name, group in df.groupby("app_name"):이렇게 하면 그룹별로 for문도 돌릴 수 있음그리고 데이터프레임에서 컬럼 가져올 때 [] 안해도 됨. df.age 하면 나옴,,, 지금까지 몰랐따 %%time 치면 실행시간이랑 나옴CPU times: user 19.1 s, sys: 985 ms, total: 20.1 s Wall time: 20.3 s 트렌드 감지골든크로스단기 평균선이 장기 평균선을 위로 돌파 → 상승 추세 시작 신호데드크로스단기 평균선이 장기 평균선을 아래로 하향 돌파 → 하락 추세 시작 신호 %%time# 60일 이동 평균 계..

2025-05-27 무신사 크롤링

무신사 사이트무신사는 각 카테고리별로, 세부 카테고리별로 랭킹이 300개씩 있다.나와있는 모든 랭킹을 크롤링 하는 것을 목표로 하고 크롤링을 시작했다. 저 목록을 보면 구조가 이런식으로 돼있다.노란색이 전체 제품 구조이고, 파란색으로 칠한 개 하나하나의 제품이 들어있다. 정적 크롤링 시도base_url = 'https://www.musinsa.com'url = "https://www.musinsa.com/main/musinsa/ranking?storeCode=musinsa&sectionId=199&contentsId=&categoryCode=104000"headers = { 'User-Agent': 'Mozilla/5.0'}html = requests.get(url, headers=headers)...