빅데이터 시대, 성과를 이끌어내는 데이터 문해력 (저자: 카시와기 요시키)

빅데이터 시대, 성과를 이끌어내는 데이터 문해력 (저자: 카시와기 요시키)

  • 추천 대상: “데이터를 들여다보면 되지 않을까?” 하는 분들
  • 한줄평: 데이터에는 답이 없다고? 데이터에서 답을 찾으려던거 아니었어?

데이터 문해력 Data Literacy

데이터, 2010년대 후반 들어 가장 많이 언급되는 단어가 아닐까 합니다. 이런 트렌드에 힘입어 데이터 문해력(Data literacy) 또한 많은 사람들이 관심을 가지고 있는 키워드라고 할 수 있습니다.

데이터 문해력은 어떻게 정의 내릴 수 있을까요? “데이터가 쏟아져 흘러 넘치는 빅데이터 시대에 데이터를 읽고 무언가를 해석하는 능력"이라고 하면 알맞은 정답이 될 수 있을까요?

이 책의 저자는 이 책을 통해서 데이터 리터러시란, “문제 해결 방법에 대해 스스로 정답을 고민하며, 데이터를 활용해 논리적으로 이를 풀어내는 능력” 이라 자신의 생각을 전합니다. 그리고 “어딘가에 있을 정답을 찾으러 간다” 는 식의 접근 방법은 학교 시험에나 해당되는 말과 함께 말이죠. (아 뼈 아퍼)

데이터 보기 전에 생각했나요?

데이터 보기 전에 생각했나요?

저자는 이렇 듯, 온화한 화법으로 쉬지 않고 독자에게 질문을 던집니다. 그 질문 하나하나가 팩폭이라 정신이 번쩍 들게 하는데요, 데이터 직군 뿐만 아니라 데이터를 접하는 마케터, 기획자, 애널리스트 등 많은 분들께 유용한 지침들로 가득하다는 생각이 들었습니다.

책을 읽으며 개인적으로 와닿았던 몇가지 내용을 아래와 같이 정리해봤습니다. 중간중간 내용이 뜨끔했다면 여러분도 책을 직접 읽어보시는 것을 강력 추천합니다!

데이터를 다룬 다는 것은 무엇을 의미할까?

“점점 편리해지는 기계와 도구들이 많아져 사용법과 조작법만 익히면 전부 알아서 해주고 원하는 것까지 손에 넣을 수 있는가라고 묻는다면 그 대답은 아쉽지만 NO입니다."

최근 들어 데이터 분석, 인공지능이 유망한 분야로 떠오르게 되면서, “데이터 분석을 배우고 싶습니다, 파이썬을 해야하나요? R을 해야 하나요? SQL은 어느 수준까지 해야 하나요?” 와 비슷한 질문들을 많이 접하게 됩니다. 그리고 많은 사람들이 데이터를 다루는 기술이 곧 데이터를 분석하는 행위라고 생각하는 모습을 보게 돼죠. 물론 기술을 익히는 것도 중요합니다. 하지만 이러한 기술은 “컴퓨터가 인간보다 빠르고 실수 없이 잘 하는 작업들을 컴퓨터에게 시키기 위한 것"에 목적을 두고 있으며, 도구에 지나지 않습니다.

그렇다면 도구를 활용하는 방법만 숙달했을 때 어떤 일들이 벌어지게 될까요? 아마 아래와 같은 단계를 밟게 될 것 입니다.

1. 데이터를 활용해서 무언가를 해보고 싶다. 데이터로 성과를 내고 싶어 ...
2. 오 눈 앞에 데이터가 있네! 그리고 난 데이터 분석 도구를 사용할 줄 알아.
3. 그럼 일단 통계값부터 내보자.
4. 그리고 시각화를 해보자.
5. 통계값을 낸 결과와 시각화를 한 결과는 이러하다. 
6. 난 데이터를 분석했어!

이렇게 당장 눈 앞에 놓인 데이터를 가지고 이리저리 통계값을 내고 그래프를 만들고 ~가 증가했다, ~가 ~보다 크다 와 같은 해석을 하게 되겠죠. 하지만 여기까지가 한계입니다… “그래서 뭐?" 라는 추궁을 받게 되면 남은 건 내거친생각과불안한눈길과그걸지켜보는 흔들리는 동공 뿐입니다.

(저렇게 모니터 보면 목이랑 허리 나가요 … )

(저렇게 모니터 보면 목이랑 허리 나가요 … )

반면, 저자가 제시하는 방식은 좀 다릅니다.

1. 내가 알고 싶은 것은 무엇인지
2. 어떤 문제를 해결하고 싶은지, 앞서 알게 된 것을 토대로 무엇을 하고 싶은지
3. 어떤 데이터를 봐야 하는지
4. 어떤 지표를 적용할 지

즉, 저자는 어떠한 문제를 해결하기 위해 어떤 목적을 가지고 어떠한 데이터를 사용할 지 설계해나가고, 결과를 토대로 의사결정을 해나가는 데이터를 기반한 사고력(critical thinking)을 갖추는 것이 핵심이라고 강조합니다.

데이터를 제대로 활용하지 못 하는 이유?

한편, 데이터를 보유하고 있고 데이터 분석을 진행했음에도 불구하고, 시원한 개선이 없다거나 제대로 활용하지 못 했다는 찜찜함이 남는 경우가 있습니다. 왜 그런 것일까요?

풀고자 하는 문제가 명확하지 않다

문제를 제대로 정의하지 않은 상태에서 당장 눈 앞에 있는 데이터에 달려들어버리면 결과가 좋을 수 없습니다. 우리는 데이터를 들여다보기에 앞서 문제를 풀고자 하는 목적, 문제, 원인, 해결 방안을 구분해서, 구체적인 언어로 정의 해야 합니다.

저 또한 문제의 윤곽만 어렴풋이 보이는 상태에서 데이터만 탐색했던 적이 떠올라서 뼈를 맞은 듯한 기분을 지울 수가 없네요. 최근에 들어서야 문제를 명확히 정의한다 라는 것의 의미를 알고 이행하려고 하고 있습니다.

정의한 문제와 사용하는 데이터가 일치하지 않는다

문제와 목적이 정해지면, 이를 객관적으로 측정하기 위한 올바른 지표가 설정되어야 하고, 우리가 보는 데이터가 이 지표를 통해 설명이 되어야 합니다.

예를 들어, 우리가 측정하고 하는 것은 시간인데, 우리가 사용하는 데이터는 무게와 거리, 사람의 수 등 엇나간 데이터라면 문제를 활용하기 위한 적절한 도구가 될 수 없겠죠. 다시 말하지만, 데이터가 무게와 거리, 사람의 수가 있기 때문에 지표를 무게, 거리, 사람의 수로 정하는 것이 아닙니다. 우리가 정의한 문제에서 시간을 보고자 한다면, 우리가 사용하는 데이터 또한 시간을 지표로 측정할 수 있어야 합니다. 일의 순서를 혼동하지 맙시다!

결과가 나왔다. 이제 무엇을 할 것인가?

“조직에서 데이터를 잘 활용하고 있다는 것은 그 정보를 통해 문제 방안을 수립하거나 구체적인 행동계획을 세우거나 관계자들이 납득할 만한 합의 또는 판단을 내릴 수 있다는 이야기입니다. 즉, 결론으로 유도하지 못하는 정보는 가치가 별로 없으며, 목적에 이르지 못한 어중간한 상태입니다. 그런데 실제로 이 상태를 끝으로 데이터를 활용했다고 말하는 경우가 압도적으로 많습니다."

혹시 데이터 정리해서 현황만 파악 해놓고 데이터를 활용했다고 하진 않았나요? (네 그게 바로 접니다) 저자가 뼈를 때렸 듯, 데이터를 도구 삼아 문제를 해결하기 위한 계획(action plan)을 수립했을 때 우리는 비로소 데이터를 활용했다 말 할 수 있을 것입니다.

다만, 현재 상태를 안다고 해서 바로 해결 방안을 찾거나 조치를 취하는 단계로 넘어가는 것을 주의해야 합니다. 저자는 데이터 정리를 통해 파악된 현재 상태에 대한 원인을 집요하게 파고드는 훈련을 잊지 말아야 하며, 만약 해결 방안이 성과를 내지 못 한다면 원인을 제대로 짚어내지 못 한 것은 아닌지를 검토해 볼 것을 강조합니다.

“원인은 항상 단순한 구조가 아닙니다. 가급적 ‘어째서’, ‘왜’를 반복해서 더욱 ‘본질적’인 원인까지 파고들어야 정확하고 밀도 있는 해결 방안을 도출할 수 있습니다. … (중략) 원인이 명확히 규명된 후 수립하는 대책과 그런 과정 없이 즉흥적으로 만든 대책은 그 효과와 정확성에 엄청난 차이가 있습니다. 논리적인 흐름과 구조에 대해 생각하는 것에 비하면 구체적인 방법을 고민하는 것이 즐겁고 편하므로 이를 우선하기 쉽습니다. 하지만 ‘해결방안’을 고민하는 것은 마지막 단계라는 것을 언제나 염두에 두시기 바랍니다."

마무리하며

막상 책의 내용을 다시 곱씹어보며 정리해보자니, 전부 지극히 당연하면서도 원론적인 이야기가 많았습니다. 그만큼 이전에는 기본에 충실하지 않았다는 뜻이 아닐까 되돌아보게 되는 계기가 되었네요.

240페이지 밖에 안 되고 심지어 한 페이지에 글자 수도 많지 않은 얇은 도서임에도 불구하고 시종일관 뼈를 때리는 내용으로 가득해서(이미 남아나는 뼈가 없…), 저는 당분간은 종종 일하면서 이 책을 가이드라인으로 삼으려고 합니다.