빅데이터 프로젝트 준비 기간
첫 주에는 파이썬 기초를 다루고, 2~4주차 초반까지 데이터 분석 실습을 진행했다면
4주차와 5주차에는 빅데이터 프로젝트를 본격적으로 진행한다.
내 파일 기록을 보면 빅데이터 주간 마지막 실습 과제 수정 날짜가 8월 8일이었고
최종 발표는 5주차 금요일인 8월 18일이었던 걸로 기억한다.
분명 주말에도 열심히 준비한 기억이 있으니 한 열흘(2주는 분명 아니었다) 가까이 준비할 시간이 있었던 것 같다.
아이디어 구상하기에도 짧은 기간이니까
그 전에는 데이터 분석 모델 개념을 익히고 코드도 바로바로 나올 수 있게 예습을 꼭 해두자.
(부끄러운 사실이지만 나는 통계적 가설 검정을 프로젝트 하면서도 헷갈렸다)
프로젝트 구성 및 주제 선정
프로젝트는 기본적으로 각 조별로 진행한다.
즉 한 조(5~7명)가 한 주제에 대해서 프로젝트를 진행하는 방식이다.
각 반은 총 4개 조로 이루어져 있고(한 반에 약 25명)
반별로 같은 실습실을 쓰기 때문에 매일 매일 발표하고 질문하고 피드백을 공유하는 건
반별 동기들이다.
각 조마다 서로 다른 주제와 서로 다른 데이터를 받는다.
가위바위보로 순서를 정해서 원하는 주제를 가져가게 된다.
놀랐던 건 반별로도 주제가 다르다는 점이다.
무슨 뜻이냐면, 반별로 4개씩 주제를 배정받는데 그 주제 테마도 반별로 다르다는 말이다.
어느 반은 주로 반도체 공정과 유통에 대한 주제가 대부분이고,
어느 반은 보험이나 의료, 이커머스 쪽으로 다양한 식이었다.
데이터의 큰 테마(예를 들어 이커머스, 유통)는 같아도 기업 종류나 세부 항목이 다르기 때문에
다른 조의 데이터 분석 결과를 베낀다거나 참고하는 게 의미가 없다.
프로젝트 준비 과정에서 느꼈던 점
1. 도메인 지식 공부를 사전에 철저히 해두자
데이터 분석은 그 분야 특성상 어쩔 수 없이 도메인 지식이 영향을 많이 끼치는 것 같다.
예를 들어 제철 분야에서 다루는 후판 제조 공정에 대한 데이터 분석을 하고자 할 때,
압연 방식(TMCP 온도제어 vs. CR 제어압연)에 따라 scaling(불량)이 왜 달라지는지
그 뒷배경을 이해한다면 데이터 분석을 할 때 방향성을 훨씬 쉽게 잡을 수 있을 것이다.
우리 조도 그렇고 다른 조도 다 첫 2~3일 동안은 데이터 분석에 바로 뛰어들기보다는 (pd.read_csv!)
1) 각 변수가 의미하는 게 무엇인지, 2) 해당 산업군에서 중요시 여기는 지표가 무엇인지
등을 계속 구글링하고 서칭하는 데 시간을 보냈다.
그런데 만약 구글링해도 잘 나오지 않는다면 (의료 분야 데이터는 특히 너무 전문적이어서
검색하기 어려웠던 걸로 기억한다) 이 분야를 잘 아는 지인이나 전문가에게 조언을 구해야 할 수도 있다...
우리 조는 보험군 고객 데이터를 선택했는데(데이터 자체에 대해선 더 자세히 설명 X)
본격적으로 분석하기 전 보험사에서 출간한 보고서나 기사, e-book 등을 찾아봤다.
그러나 구글링을 열심히 해도 그닥 뾰족한 수가 나오지 않을 텐데 어찌보면 당연한 것 같다.
우리는 데이터만 받았지 그 데이터를 만든 주체(특정 기업)에 대해서는 전혀 아는 게 없기 때문이다.
실제 현업에서는 그래도 산업에 종사하는 사람들과 컨설팅을 하면서 주워 듣고
어깨 너머로 배우는 게 있으니까 좀 더 수월하지 않을까?(라는 착각)
2. 분석은 꼬리에 꼬리를 문다: 다차원적인 분석을 하자
우리 조가 송 교수님으로부터 가장 많이 받았던 지적이 바로 '너무 1차원적이다'라는 코멘트이었다.
예를 들어서 보험사 고객 중 대출 연체율(A)이 높은 고객이 있다고 하자.
해당 고객의 소득 구간을 조사해봤더니 평균 소득(B)이 낮더라.
그럼 'A라는 변수는 B 변수와 상관관계가 있다' 라는 분석을 했다고 치자.
이게 과연 좋은 평가를 받을 수 있을까?
글을 읽는 분들은 '아니 저런 분석은 초등학생도 할 수 있는 거 아니야?'라고 생각할 수도 있지만
실제로 빅데이터 프로젝트를 하다보면 초반에 정말 저런 분석밖에 할 수 없는 상황에 닥치게 된다.
답답해서 보다 못한 교수님이 우리 조에게 하셨던 말씀은
'A에서 B로, B에서 C로 연결을 짓거나 아니면 A와 B를 하나로 묶어서 C와 연관이 있는지 분석을 해봐라'
대강 이런 코멘트이었다.
즉 평균 소득 구간과 부양 가구 수, 그리고 연령을 하나의 특성(파생 변수)으로 묶은 다음
대출 연체율 또는 해지율을 연관지어서
'40~50대이며 4인 가구 이상을 부양해야 하는 고객이 소득 구간이 낮을 때 대출 연체와 보험 해지를 하는 경향이 동시에 나타났다'
라고 좀 더 살을 붙여 스토리를 만들어낼 수 있는 것이다.
3. 좌절하지 말자
힘든 기억은 다 미화된다고,
지금 돌이켜보면 빅데이터 프로젝트가 AI 프로젝트보다 더 수월했던 것 같기도 하고 내 성장에 큰 도움이 됐던 건 사실이다.
하지만 그 당시에는 정말 힘들었다.
빅데이터 프로젝트 시작하기 전 교수님들도 우리에게 주의를 하시지만
이 프로젝트는 정해진 답이 없기 때문이다. 그래서 더더욱 힘들었다.
우선 데이터를 받으면 변수 종류가 수십 가지가 되는데 이중 어떤 걸 선정해야 할지 감도 전혀 안 잡힌다.
게다가 최종 발표일은 점점 다가오고 교수님께는 매번 지적만 받으니 기운이 날 리가 없었다.
교수님이 조언을 주시지만 그걸 구체적으로 어떤 분석 결과로 내놓아야 할지 최종 발표 전날까지도 알쏭달쏭하기만 했다.
빅데이터 발표가 있는 3~4일 전부터는 정말 잠과의 싸움이었다.
밤을 하루 꼴딱 새본 적은 있어도 태어나서 사흘 내내 연속으로 3~4시간씩만 자는 건 처음이었다.
그래도 나는 약과였던 게, 다른 조원들 중엔 이틀 꼬박 밤을 샌 친구도 있었다.
(지금 생각해보면 너무 피곤해서 인사도 없이 먼저 숙소로 들어간 게 너무 미안하다)
그렇게 발표가 다가올수록 꼭 마취 주사를 맞은 것처럼 머릿속이 멍한 상태가 반복됐지만
다같이 고생하는 조원들이 있었기 때문에 이를 악물고 버텼다.
원래 나는 밤샘에 정말 약한 타입인데 하다보면 어떻게든 되더라.
물론 100% 만족하지는 못했지만, 최종 발표 직전까지 갈아넣어서
결국 눈에 띄게 발전한 ppt 자료를 만들었을 땐 감격스럽기까지 했다.
중간에 포기하고 그냥 퇴소해버릴까 하는 생각이 수백 번도 들었지만
그건 아마 모든 교육생이 다 똑같은 마음이었겠지.
또 프로젝트 기간동안 항상 시끌벅적 발랄한 우리 조가 아니었다면 끝까지 해내지 못했을 것 같다.
고생한 만큼 짧은 시간 내에 많은 걸(+정신력까지) 배울 수 있는 시간이었다.
'회고록 > 포스코 AIㆍBig Data 아카데미' 카테고리의 다른 글
포스코 청년 AI Big Data 아카데미 23기 후기 9편: 연구 인턴 면접 후기 (0) | 2023.11.12 |
---|---|
포스코 청년 AIㆍBig Data 아카데미 23기 후기 8편: 자소서, 면접, 채용박람회 (0) | 2023.10.05 |
포스코 청년 AIㆍBig Data 아카데미 23기 후기 6편: 소소한 행복 (feat. 야식, 회식, 휴식) (1) | 2023.10.01 |
포스코 청년 AIㆍBig Data 아카데미 23기 후기 5편: 키워드로 정리하는 빅데이터 교육 1 (1) | 2023.09.30 |
포스코 청년 AIㆍBig Data 아카데미 23기 후기 4편: 포항 살이 준비물 (0) | 2023.09.29 |