본문 바로가기

회고록/포스코 AIㆍBig Data 아카데미

포스코 청년 AIㆍBig Data 아카데미 23기 후기 7편: 빅데이터 프로젝트에서 느꼈던 점

빅데이터 프로젝트 준비 기간

첫 주에는 파이썬 기초를 다루고, 2~4주차 초반까지 데이터 분석 실습을 진행했다면

4주차와 5주차에는 빅데이터 프로젝트를 본격적으로 진행한다.

 

내 파일 기록을 보면 빅데이터 주간 마지막 실습 과제 수정 날짜가 8월 8일이었고

최종 발표는 5주차 금요일인 8월 18일이었던 걸로 기억한다.

분명 주말에도 열심히 준비한 기억이 있으니 한 열흘(2주는 분명 아니었다) 가까이 준비할 시간이 있었던 것 같다.

 

아이디어 구상하기에도 짧은 기간이니까

그 전에는 데이터 분석 모델 개념을 익히고 코드도 바로바로 나올 수 있게 예습을 꼭 해두자.

(부끄러운 사실이지만 나는 통계적 가설 검정을 프로젝트 하면서도 헷갈렸다)

 

 

 

프로젝트 구성 및 주제 선정

프로젝트는 기본적으로 각 조별로 진행한다.

즉 한 조(5~7명)가 한 주제에 대해서 프로젝트를 진행하는 방식이다.

 

각 반은 총 4개 조로 이루어져 있고(한 반에 약 25명)

반별로 같은 실습실을 쓰기 때문에 매일 매일 발표하고 질문하고 피드백을 공유하는 건

반별 동기들이다.

 

각 조마다 서로 다른 주제와 서로 다른 데이터를 받는다.

가위바위보로 순서를 정해서 원하는 주제를 가져가게 된다.

 

놀랐던 건 반별로도 주제가 다르다는 점이다.

무슨 뜻이냐면, 반별로 4개씩 주제를 배정받는데 그 주제 테마도 반별로 다르다는 말이다.

어느 반은 주로 반도체 공정과 유통에 대한 주제가 대부분이고,

어느 반은 보험이나 의료, 이커머스 쪽으로 다양한 식이었다.

 

데이터의 큰 테마(예를 들어 이커머스, 유통)는 같아도 기업 종류나 세부 항목이 다르기 때문에

다른 조의 데이터 분석 결과를 베낀다거나 참고하는 게 의미가 없다.

 

 

 

 

프로젝트 준비 과정에서 느꼈던 점

1. 도메인 지식 공부를 사전에 철저히 해두자

데이터 분석은 그 분야 특성상 어쩔 수 없이 도메인 지식이 영향을 많이 끼치는 것 같다.

 

예를 들어 제철 분야에서 다루는 후판 제조 공정에 대한 데이터 분석을 하고자 할 때,

압연 방식(TMCP 온도제어 vs. CR 제어압연)에 따라 scaling(불량)이 왜 달라지는지

그 뒷배경을 이해한다면 데이터 분석을 할 때 방향성을 훨씬 쉽게 잡을 수 있을 것이다.

 

우리 조도 그렇고 다른 조도 다 첫 2~3일 동안은 데이터 분석에 바로 뛰어들기보다는 (pd.read_csv!)

1) 각 변수가 의미하는 게 무엇인지, 2) 해당 산업군에서 중요시 여기는 지표가 무엇인지 

등을 계속 구글링하고 서칭하는 데 시간을 보냈다.

그런데 만약 구글링해도 잘 나오지 않는다면 (의료 분야 데이터는 특히 너무 전문적이어서

검색하기 어려웠던 걸로 기억한다) 이 분야를 잘 아는 지인이나 전문가에게 조언을 구해야 할 수도 있다...

 

우리 조는 보험군 고객 데이터를 선택했는데(데이터 자체에 대해선 더 자세히 설명 X)

본격적으로 분석하기 전  보험사에서 출간한 보고서나 기사, e-book 등을 찾아봤다.

 

그러나 구글링을 열심히 해도 그닥 뾰족한 수가 나오지 않을 텐데 어찌보면 당연한 것 같다.

우리는 데이터만 받았지 그 데이터를 만든 주체(특정 기업)에 대해서는 전혀 아는 게 없기 때문이다.

 

실제 현업에서는 그래도 산업에 종사하는 사람들과 컨설팅을 하면서 주워 듣고

어깨 너머로 배우는 게 있으니까 좀 더 수월하지 않을까?(라는 착각)

 

 

 

2. 분석은 꼬리에 꼬리를 문다: 다차원적인 분석을 하자

우리 조가 송 교수님으로부터 가장 많이 받았던 지적이 바로 '너무 1차원적이다'라는 코멘트이었다.

 

예를 들어서 보험사 고객 중 대출 연체율(A)이 높은 고객이 있다고 하자.

해당 고객의 소득 구간을 조사해봤더니 평균 소득(B)이 낮더라.

그럼 'A라는 변수는 B 변수와 상관관계가 있다' 라는 분석을 했다고 치자.

이게 과연 좋은 평가를 받을 수 있을까?

 

글을 읽는 분들은 '아니 저런 분석은 초등학생도 할 수 있는 거 아니야?'라고 생각할 수도 있지만

실제로 빅데이터 프로젝트를 하다보면 초반에 정말 저런 분석밖에 할 수 없는 상황에 닥치게 된다.

 

답답해서 보다 못한 교수님이 우리 조에게 하셨던 말씀은

'A에서 B로, B에서 C로 연결을 짓거나 아니면 A와 B를 하나로 묶어서 C와 연관이 있는지 분석을 해봐라'

대강 이런 코멘트이었다.

 

즉 평균 소득 구간부양 가구 수, 그리고 연령을 하나의 특성(파생 변수)으로 묶은 다음

대출 연체율 또는 해지율을 연관지어서

'40~50대이며 4인 가구 이상을 부양해야 하는 고객이 소득 구간이 낮을 때 대출 연체와 보험 해지를 하는 경향이 동시에 나타났다'

라고 좀 더 살을 붙여 스토리를 만들어낼 수 있는 것이다.

 

 

 

3. 좌절하지 말자

힘든 기억은 다 미화된다고,

지금 돌이켜보면 빅데이터 프로젝트가 AI 프로젝트보다 더 수월했던 것 같기도 하고 내 성장에 큰 도움이 됐던 건 사실이다.

 

하지만 그 당시에는 정말 힘들었다.

빅데이터 프로젝트 시작하기 전 교수님들도 우리에게 주의를 하시지만 

이 프로젝트는 정해진 답이 없기 때문이다. 그래서 더더욱 힘들었다.

 

우선 데이터를 받으면 변수 종류가 수십 가지가 되는데 이중 어떤 걸 선정해야 할지 감도 전혀 안 잡힌다.

게다가 최종 발표일은 점점 다가오고 교수님께는 매번 지적만 받으니 기운이 날 리가 없었다.

교수님이 조언을 주시지만 그걸 구체적으로 어떤 분석 결과로 내놓아야 할지 최종 발표 전날까지도 알쏭달쏭하기만 했다.

 

빅데이터 발표가 있는 3~4일 전부터는 정말 잠과의 싸움이었다.

밤을 하루 꼴딱 새본 적은 있어도 태어나서 사흘 내내 연속으로 3~4시간씩만 자는 건 처음이었다.

그래도 나는 약과였던 게, 다른 조원들 중엔 이틀 꼬박 밤을 샌 친구도 있었다.

(지금 생각해보면 너무 피곤해서 인사도 없이 먼저 숙소로 들어간 게 너무 미안하다)

 

그렇게 발표가 다가올수록 꼭 마취 주사를 맞은 것처럼 머릿속이 멍한 상태가 반복됐지만

다같이 고생하는 조원들이 있었기 때문에 이를 악물고 버텼다.

원래 나는 밤샘에 정말 약한 타입인데 하다보면 어떻게든 되더라.

물론 100% 만족하지는 못했지만, 최종 발표 직전까지 갈아넣어서

결국 눈에 띄게 발전한 ppt 자료를 만들었을 땐 감격스럽기까지 했다.

 

중간에 포기하고 그냥 퇴소해버릴까 하는 생각이 수백 번도 들었지만

그건 아마 모든 교육생이 다 똑같은 마음이었겠지.

 

또 프로젝트 기간동안 항상 시끌벅적 발랄한 우리 조가 아니었다면 끝까지 해내지 못했을 것 같다.

고생한 만큼 짧은 시간 내에 많은 걸(+정신력까지) 배울 수 있는 시간이었다.

 

 

 

분위기랑 텐션만큼은 반 최고였던 우리 조