데이터 분석/###

[데이터 리터러시]

PARK JI HO 2024. 1. 3. 12:45

데이터 리터러시란?

- 데이터를 읽는 능력

- 데이터를 이해하는 능력

- 데이터를 비판적으로 분석하는 능력

- 결과를 의사소통에 활용할 수 있는 능력

 

해당 능력을 기반으로 올바른 질문을 던질 수 있도록 만들어 줌

 

 

 

데이터 분석에 대한 착각

- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각

- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각

-  ** 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각  ** 

 

 

심슨의 역설

- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님

- 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안 됨

 

ex) 전체 연령대를 기반으로 코로나의 치명률을 백신 접종, 미접종으로 나눠서 봤을 때는

백신 접종 완료 집단이 치명률이 더 높게 나왔음

그러나 50세를 기준으로 나눠서 봤을 때 50세 미만은 접종, 미접종의 치명률 차이가 미미했지만

50세 이상에서는 백신 미접종 집단의 치명률에 3배 이상 높게 나옴.

 

즉, 전체 연령 집단에서는 단순히 백신 접종의 여부가 치명률에 영향을 안 주는 것처럼 보이지만

개별 연령 집단으로 쪼개서 봤을 때 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가

있다는 것을 알 수 있음

 

 

상관관계와 인과관계

  • 상관관계 :
    두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
    한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름

  • 인과관계 :
    실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
    원인과 결과가 명확한 것

- 상관관계가 인과관계가 아닌 것을 유의해야 함

- 상관관계만으로 섣불리 의사결정 하지 않기

- 양쪽을 모두 활용하여 합리적인 판단하기

 

 

데이터 활용 예제

https://spartacodingclub.kr/

 

Q1. 이 그래프를 통해 어떤 것을 알 수 있나요?

: 개발팀의 인원이 가장 많고 고객지원팀의 인원이 가장 적은 상태이며, 인사팀과 영업팀은 비슷한 인원수를 나타내고 있다

  -> 데이터를 읽는 것

 

Q2. 이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?

: 전체 인원 대비 마케팅과 개발팀에 비교적 많은 인력이 있어 인원을 감축할 필요가 있어 보인다. 

  상대적으로 고객지원팀의 인력이 터무니없이 적어서 인력 충원이 필요해 보인다.

  -> 데이터 작업 전 알고 싶은 것을 생각해 보는 목적 사고적 방식

 

* 데이터를 볼 때 항상 왜? 무엇을 말하고 싶은지? 를 생각해 보기 *

 

 

 

데이터 분석 접근법

1) 문제 및 가설 정의 - 생각

2) 데이터 분석 - 작업

3) 결과 해석 및 액션 도출 - 생각

 

데이터 분석 자체가 목적이 되지 않도록 '왜?'를 항상 생각해야 함

생각하는 과정에 많은 인풋을 주기