본문 바로가기
- BOOK

[데이터 분석가의 숫자 유감] #상관관계와 인과관계, 모수와 표본

by shoo. 2023. 11. 24.

 

 
우선 이 책은 14개의 목차항목이 있다
데이터 분석을 입문하는 사람이 읽으면 도움되는 내용이 있는 책이다
각 내용마다 삽화가 있어 쉽게 이해할 수 있고, 좀 더 기억에 남지 않을까 한다
다음과 같이 책을 읽고 내용을 간단히 정리하려 한다
 

1. 상관관계와 인과관계

'상관관계는 인과관계를 나타내지 않는다'

인과 관계 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것
상관 관계 두 변수가 얼마나 상호 의존적인지를 의미
한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식 -> 상관계수

 

분석시 주의할 점

여러 데이터를 분석할 때 그 추이가 비슷한지를 확인하는 데 상관계수를 보통 우선적으로사용한다. 간혹 특정 변수 간의 상관계수가 의미있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있다. 혹은 그래프를 그려 보면 추이 형태가 비슷하다는 이유로 해당 변수를 문제의 원인으로 잡아 내고, 이것으로 문제를 해결했다고 생각하는 경우도 있다. 하지만 사실은 그렇지 않다.
즉, 두 변수가 상관관계만으로 원인과 결과임을 판단할 수 없고, 그래서 상관관계가 인과관계를 나타내는 것은 아닌
 

인과관계 분석시, 고려할 점

=과거의 값이 현재의 값에 영향을 계속미치는 '자기상관성'이라든가, 누락된 변수에 대한 '편향성'이라든가, 어떻게 할 수 없는 날씨 같은 '외생 변수'의 영향 등을 고려해야 한다. 특히 잘 통제된 실험 공간 내에서 만들어진 데이터가 아닌, 수많은 돌발사항과 외생 변수를 마음대로 조절할 수 없는 실제 데이터 분석에서는 고려할 사항도 많고, 불확실성도 크다
 


두 변수 간의 관계 분석을 하면서 상관관계와 인과관계를 사용할 때는 내생변수와 외생변수를 이해하고, 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있는지를 꼼꼼히 따져보아야 한다. 
 


2. 숫자의 불확실성


 숫자를 통해 다양한 정보를 비교하고 분석하는 것은 중요하지만, 그 과정에는 여러 가지 딜레마가 존재한다. 세상은 가변적이기 때문에 동일하게 보이는 것도 다양한 상황에 따라 다르게 해석될 수 있다

 또한, 어떤 데이터를 분석할 때는 그 데이터가 생성된 과정과 조건, 그리고 그 아래에 깔려 있는 가정들을 이해해야 한다. 단순하게 보이는 숫자 뒤에는 많은 가정과 합의가 존재하며, 이러한 가정과 합의를 탐색하고 이해하는 것이 중요합니다. 가지치기된 내용을 풀어내는 데는 여러 추론 방법과 가정이 필요하며, 이 과정에서 내용이 다소 유실되거나 의도와는 다른 상황이 들어갈 수 있다
 따라서 숫자를 비교하려면 정의, 실험, 실제 수치, 상황 등 고려해야 하는 전제가 많다. 그래프가 잘 나오는 값을 선택하는 것이나 상관관계를 인과관계로 해석하는 것은 매우 주의해야 하는 일입니다. 숫자는 확실해 보이지만 그 아래에는 많은 불확실성과 전제가 존재하기 때문이다

 

3. 모수와 표본

 

실무에서 모집단을 정의 -> 모집단에 가까운 표본 정의 -> 표본을 구하는 방법 고민 -> 표본에 대한 데이터 수집

'전체 사용자의 구매' 패턴을 파악하려면, '전체 사용자'라는 개념을 일단 어느 정도 정의하고, 이 중에서 사용할 데이터를 찾는다

그 데이터는 표본이 되고, 표본이 해당 모집단의 특성치를 추정하기에 적당한지 고민한다

 

이때 많이 사용되는 것이

'큰 수의 법칙' : 표본의 크기가 충분히 크다면 그떄의 표본 평균은 모평균에 충분히 가까워진다 

모수 : 모집단의 수치적 요약값. 모집단의 형태를 추정  (ex. 모평균, 모표준편차 등) 

 

 많은 데이터 분석은 모집단의 형태를 추정하는 식으로 이루어짐. 따라서 데이터 분석에서 '모집단'자체를 다룰 수 있는 경우는 거의 없다. 전체 데이터를 다 사용한다고 해도, 그 데이터가 서비스를 적게 사용한 사람들, 늦게 가입한 사람들, 중간에 탈퇴한 사람들을 모두 대표 할수는 없다

 

 자신이 아는 것으로 모든 것을 해석하는 데는 한계가 있다. 익숙치 않은 지식과 용어에 대한 정의를 객관적인 시각으로 이해하는 것, 자신의 시각에 비추어 오용하거나 남용하지 않는 것, 그리고 공감대를 형성하는것. 이런 것이 데이터를 이해하기 전에 서로 잘 맞춰가야하는 무엇보다 중요한 전제다