[데이터 리터러시]
데이터 리터러시란?
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용할 수 있는 능력
해당 능력을 기반으로 올바른 질문을 던질 수 있도록 만들어 줌
데이터 분석에 대한 착각
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각
- ** 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각 **
심슨의 역설
- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님
- 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안 됨
ex) 전체 연령대를 기반으로 코로나의 치명률을 백신 접종, 미접종으로 나눠서 봤을 때는
백신 접종 완료 집단이 치명률이 더 높게 나왔음
그러나 50세를 기준으로 나눠서 봤을 때 50세 미만은 접종, 미접종의 치명률 차이가 미미했지만
50세 이상에서는 백신 미접종 집단의 치명률에 3배 이상 높게 나옴.
즉, 전체 연령 집단에서는 단순히 백신 접종의 여부가 치명률에 영향을 안 주는 것처럼 보이지만
개별 연령 집단으로 쪼개서 봤을 때 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가
있다는 것을 알 수 있음
상관관계와 인과관계
- 상관관계 :
두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름 - 인과관계 :
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
원인과 결과가 명확한 것
- 상관관계가 인과관계가 아닌 것을 유의해야 함
- 상관관계만으로 섣불리 의사결정 하지 않기
- 양쪽을 모두 활용하여 합리적인 판단하기
데이터 활용 예제
Q1. 이 그래프를 통해 어떤 것을 알 수 있나요?
: 개발팀의 인원이 가장 많고 고객지원팀의 인원이 가장 적은 상태이며, 인사팀과 영업팀은 비슷한 인원수를 나타내고 있다
-> 데이터를 읽는 것
Q2. 이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?
: 전체 인원 대비 마케팅과 개발팀에 비교적 많은 인력이 있어 인원을 감축할 필요가 있어 보인다.
상대적으로 고객지원팀의 인력이 터무니없이 적어서 인력 충원이 필요해 보인다.
-> 데이터 작업 전 알고 싶은 것을 생각해 보는 목적 사고적 방식
* 데이터를 볼 때 항상 왜? 무엇을 말하고 싶은지? 를 생각해 보기 *
데이터 분석 접근법
1) 문제 및 가설 정의 - 생각
2) 데이터 분석 - 작업
3) 결과 해석 및 액션 도출 - 생각
데이터 분석 자체가 목적이 되지 않도록 '왜?'를 항상 생각해야 함
생각하는 과정에 많은 인풋을 주기