저는 2024년 8월 19일부터 2025년 1월 10일까지 패스트캠퍼스에서 진행하는 데이터 분석 부트캠프 16기를 수강하고 있습니다.
이 부트캠프에서는 주로 파이썬, SQL, 태블로 세 가지 핵심 기술을 배운 후 프로젝트를 수행하게 됩니다. 그 중 첫 번째로 진행된 파이썬 프로젝트는 9월 23일부터 10월 2일까지 이루어졌습니다.
이 글에서는 패스트캠퍼스 데이터 분석 부트캠프의 프로젝트 진행 방식을 간략하게 소개하고자 파이썬 프로젝트의 과정을 설명드리려고 합니다.
프로젝트 사전조사 및 오리엔테이션
프로젝트를 진행하기 앞서 매니저님께서 사전조사 정보를 취합하여 각자의 성향과 추구하는 분석 주제에 맞게 조 편성을 해주십니다.
강사님이 프로젝트 기간 일주일 전에 프로젝트 진행 방식과 선정된 대주제 다섯가지와 그에 적합한 데이터셋을 보여주시고 각자 원하는 데이터를 선택해 분석을 진행하게 됩니다.
분석할 데이터 주제는 크게 이커머스, 금융, 드라마, 음악, 그리고 비만율로 분류되어 있고, 이 중 본인이 원하는 주제가 있다면 공공 데이터나 Kaggle 등에서 찾아서 데이터 분석을 진행해도 됩니다. 본인이 직접 크롤링을 해서 데이터 분석을 진행해도 상관 없습니다.
이만큼 파이썬 프로젝트는 첫 프로젝트임에도 자유도가 꽤 높습니다.
저는 제가 직접 분석해보고 싶은 이커머스 사이트가 있어서 이커머스 주제를 골랐습니다. 의외였던 점은 8팀 중 4팀이 이커머스 주제였다는 점이었는데요, 이 중 2팀이 강사님이 추천하신 Kaggle의 Brazilian E-commerce Dataset으로 데이터 분석을 진행했습니다.
Brazilian E-commerce Dataset은 브라질 이커머스 회사의 2년치 데이터를 말하는데요, Kaggle에서 Titanic 데이터셋 만큼이나 유명하고 데이터 분석가를 준비하는 취업준비생이라면 한 번쯤은 분석을 해봤을 데이터셋이라고 할 수 있습니다. 많은 데이터 전문가들이 이 데이터셋을 추천하는 이유는 실제 이커머스 업계의 데이터 구조와 매우 유사하기 때문입니다.
저는 여러 우여곡절 끝에 결국 SQL 프로젝트에서 데이터셋에 대한 분석을 진행했는데, 그 이유는 SQL 프로젝트 후기에서 자세히 다루겠습니다.
주제 아이데이션
우리 팀은 먼저 각자의 배경 지식, 즉 도메인 지식을 공유하고 팀원들의 강점을 파악하는 시간을 가졌습니다.
첫날에는 각자 이커머스 분야 중 관심 있는 세부 주제를 알아보기 위해 구글 독스에 각자의 생각을 적고 취합해보았습니다.
저희 팀은 주제 선정에 꽤 난코스를 겪었는데요, 처음에는 각자 데이터 분석을 하고 싶은 분야에 대해 공유를 했으나 데이터를 직접 구해 오는 데 쉽지 않다는 점을 알게 되었습니다. 그래서 강사님이 제공해주신 브라질 이커머스 회사의 데이터셋을 가지고 분석을 진행해보기로 했습니다.
하지만 해당 데이터셋에 있는 각 테이블과 컬럼에 대해 살펴보니 생각보다 워낙 복잡하고 여러 테이블을 하나로 묶어 다루는 방법에 대해 배우지 않아서 이해하는데만 시간이 오래 걸릴 것 같아보였습니다.
결국은 제가 개인 프로젝트로 진행했던 국내 중개거래 플랫폼의 거래 데이터 크롤링 코드를 가지고 데이터 분석을 하기로 정하고 분석을 진행했습니다.
데이터 수집 및 전처리
제가 크롤링한 데이터는 거래 일자, 거래 금액, 사이즈, 그리고 빠른 배송 여부로 구성된 4개의 컬럼과 한 켤레당 약 2만 개의 거래 데이터(행)으로 이루어져 있었습니다.
크롤링은 수업시간에 배웠던 셀레니움을 활용하여 중복 데이터와 결측치가 없도록 철저하게 진행했으며, 한번 크롤링에 최대 한시간 이상이 소요되기도 했습니다.
빠른 배송 여부와 같은 범주형 데이터는 다른 데이터프레임으로 분류해 일반 배송 데이터와 비교했습니다.
또한, 사이즈별 수익률에 대한 차이를 분석해봤습니다. 제품은 인기도가 높은 특정 스니커즈 모델 1개로 지정하고, Mens, GS, PS, TD 사이즈별 차익을 비교했습니다.
세번째로는 같은 제품군 중 컬러별 프리미엄 차이도 분석해봤습니다. 특이점은 제품별로 발매 시기가 다르다는 점이었는데, 날짜 데이터를 전처리 후 한개의 그래프에 여러 데이터프레임을 도식화하는 방식을 통해 제품별 차이점을 찾을 수 있었습니다.
데이터 분석 결과 도출
분석 결과, 빠른 배송 여부가 거래 금액과 밀접한 연관이 있음을 발견했습니다. 빠른 배송이 가능한 상품의 거래 금액이 약간 더 높게 나타났습니다.
또한, 사이즈가 클수록 수익률도 크다는 점을 알 수 있었습니다. 이는 해당 제품은 주로 체구가 큰 남성 고객층의 수요가 높고, 큰 사이즈일수록 공급률이 낮다는 점으로 결론을 도출할 수 있습니다.
세 번째로, 재발매가 이루어진 시점을 직후로 가격이 급락하는 점을 알 수 있었습니다. 이는 수요와 공급의 불균형이 주요 원인으로, 재발매로 인해 공급이 늘어나면서 가격이 하락했음을 보여줍니다. 이를 통해 특정 시점에 거래 전략을 세우는 데 활용할 수 있는 인사이트를 제공했습니다.
소감
첫 프로젝트였던 만큼, 우리 팀원 세 명 모두 데이터 분석에 어떻게 접근해야 할지 몰라 한동안 헤맸습니다. 처음에는 혼란스러웠지만, 결국 서로의 의견을 조율하며 프로젝트를 긍정적으로 마무리할 수 있었습니다.
특히 데이터를 분석하는 과정에서, 단순히 결과를 도출하는 것을 넘어 제품의 특성과 시장 상황을 이해하려는 프로덕트 매니저의 역할도 해야 한다는 것을 깨달았습니다. 이런 접근 방식이 분석의 깊이를 더하는 데 큰 도움이 되었죠.
팀원들이 스니커즈라는 분야에 대한 배경지식이 부족한 상황에서, 이를 설명하고 설득하는 과정이 가장 어려웠습니다. 하지만 이 과정을 통해 서로 다른 관점에서 문제를 바라보고 해결하는 능력을 키울 수 있었습니다.
또한, 수업에서 배운 내용만으로는 분석 결과를 얻기가 쉽지 않았습니다. 추가로 독학하거나 외부 자료를 찾아봐야 했고, 이를 통해 스스로 학습하는 것의 중요성을 깨닫게 되었습니다.
첫번째 프로젝트라 많이 서툴렀지만, 데이터분석가가 어떤 식으로 데이터를 통해 결과를 도출해내는지 알게 되었습니다. 데이터분석이라는 분야는 끝없는 인사이트를 발굴해내는 과정이 재밌기도 하지만 데이터를 기반으로 한 논리적 설명이 되어야 하는 분야라 다각도로 발전해야 하는 분야인 것 같습니다.
'데이터 분석 부트캠프 > 회고록' 카테고리의 다른 글
[데이터 분석 부트캠프] 5개월간의 부트캠프 수강생의 하루 (1) | 2025.02.19 |
---|---|
[데이터 분석 부트캠프] 패스트캠퍼스 데이터 분석 부트캠프 과정 종료 회고 (0) | 2025.02.11 |
[데이터 분석 부트캠프] 태블로 프로젝트 후기 - 부동산 대시보드 만들기 (0) | 2025.01.12 |
[데이터 분석 부트캠프] 브라질의 이커머스 데이터를 활용한 SQL 프로젝트 후기 (3) | 2024.11.16 |
[데이터 분석 부트캠프] 인생에 단 한 번뿐인 부트캠프 지원 과정 되돌아보기 (20) | 2024.10.18 |