# 책 제목 : 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력
# 인상 깊었던 구절의 사진
3. '이것이 문제다' 데이터로 말하는 방법
3.1 결과와 평가는 다르다
목적 및 문제를 정의하고 지표를 결정한 후, ‘현황 파악’을 위해서 성과 및 사실, 결과를 확인하고 그 결과에 대해 평가 진행하는 것
-가치있는 정보: 구체적인 행동을 특정할 수 있다(누가 언제 무엇을 했는지), 구체적인 판단을 내릴 재료가 된다
-우선순위를 정하려면 어떤 척도와 기준으로 ‘평가’할지가 관건 -> 가치있는 정보 얻게 됨
-사실 및 결과 표시 =! 평가
내용을 평가해서 구체적인 행동과 판단으로 연결
3.2 비교할때 관점이 중요
- (1) 평가를 객관적으로 만드는 것 =‘다른 것과의 비교’
- (2) 결론이 데이터와 일치할 것 (데이터로 결과물을 만들때, 본인 생각과 주관 포함X)
(1)
- 초기단계부터 목적 중심 사고를 하며 데이터 수집
- 비교할때 체크포인트: 결론으로 이어지는 결과가 나올 것인가?, 비교를 통해 ‘차이’를 찾을 수 있는가?
-무슨 말을 하고 싶은지, 어떤 것을 확인하고자 하는지,
이에 따라 ~라는 데이터를 ~라는 데이터와 비교했다라는 과정이 데이터 활용에 있어 필수
-‘결과’가 아니라 ’결론‘을 도출 -> 목적 중심 사고
- 결론: 차이가 어떤 내용인지 설명 (<- 무엇을 말하고 싶은지, 어떤 것이 문제로 인식하고 있는지 명확해야)
(2)
- 차이가 없어도 결론으로 삼을 수 있다
- 비교 대상이 꼭 하나일 필요 없다 -> 여러 비교 대상과 비교하여 가설-검증을 반복
- 내부 비교: 자사 제품의 총 매출을 지역별로 구분해 비교
- 외부 비교: 타사와 비교
-> 목적에 따라 판단
3.3 비교의 기술
-비교하는 목적(관점): 비교를 통해 평가
-비교의 기술: 목적에 따라 값의 크기, 추이, 편차, 비율 등으로 데이터 특징 포착
- 데이터 수가 매우 많거나 복잡한 변동 -> 표준편차 함께 활용
- 편차 폭: 전체 범위에서 데이터의 간격이 어떠한가
- 편차를 볼때 표준편차에만 의존하지 말고 그래프 등과 그 변동 양상을 함께 관찰해야 함
- 표준편차: 데이터 대다수가 존재하는 범위의 폭, 극단적인 값에 전체 편차는 영향 받지 않음
- 편차가 크다 = 정답이 없다 -> 월별 매출 실적이 불안정 또는 향후 매출 크게 높일 가능성 많음
-> 평가라고 해서 반드시 ‘좋고 나쁨’을 가리는 것 아님
같은 데이터라도 어떤 기준으로 평가하느냐에 따라 결론이 달라짐
이 사례에서는 어떤 평가가 중요할지, 어떤 설명이나 결론이 가능할까 라는 관점으로 필요한 기준을 선정해 활용해야 함
4장. 결과가 나왔다고 끝난 것은 아니다
4.1 최종 목표는 행동 및 판단
해결방안은 문제가 아니라 그 문제를 야기하는 원인에 취해야 함
4.2 원인을 찾는 사고방식과 방법
- 주관적으로 원인 후보 판단 X
- 문제와 원인, 그 관련성 확인하는 법
1단계: 시각적으로 관련성 확인 (세로축: 문제와 결과, 가로축: 원인 후보 지표)
산포도에서 어떤 부분에 초점을 두어야할지는 목적과 배경에 따라 다르다
모든 사례의 관련성을 명확히 밝힐수 없다 어떠한 관련성도 찾을 수 없다는 것 또한 하나의 결론이 될 수 있다
2단계: 통계지표 확인 (상관계수)
가로축과 세로축이 선형관계일 경우, 그 관련정도를 나타내는 ‘상관분석’
다만, 상관분석을 통해 관련성을 모두 파악가능한 것은 아님 더 자세히 관련성 알고 싶을 땐 산포도로 시각화
상관계수는 -1~+1사이의 값으로 문제와 결과가 원인과 관련성있는지 확인
활용하는 데이터 수와 조건에 따라 상관계수의 정확도는 큰차이
-실적과 결과 표시만 하고 끝낸 것은 아닌지
-이 결과를 통해 구체적인 판단이나 행동으로 연결될 것인지
-문제와 결과에 대한 원인을 충분히 고려했는지
00과 00의 관계성을 통해 어떤 결론을 내릴 수 있을까? 에 대해 지속적으로 생각해야 함
주의사항: 데이터를 보기 전에 모든 가능성을 염두에 두고 사고를 확장해 원인을 고려해야함 (직접적인 관계 vs 간접적인 관계)
- 선형이 아닌 관계성도 존재
이것이 양자 간 관련성이 없다라는 의미 아님
그래서 산포도로 시각화 추천
상관관계가 복잡할때, 전체를 부분으로 나눠서 확인
- 상관관계는 인과관계를 나타내는 것 아님
어느 쪽이 원인이고 결과인지 분석자의 해석에 달림
# 느낀점
이 책을 읽을수록 반성을 하게 되는 경우가 많았다
대부분 '데이터 분석'을 검색해보면, 스킬에 관한 내용이나 강의가 많이 나오는데
그보다 중요한 것이 데이터 문해력이라는 것을 몸소 깨닫고 있다
특히 프로젝트를 진행하면서 느꼈다
책에서 배운 내용을 통해 앞으로의 프로젝트에 꼭 적용해야 겠다는 다짐을 한다
'- BOOK' 카테고리의 다른 글
[데이터 분석가의 숫자유감] #확률과 분포, 실험을 통한 의사결정 (1) | 2023.12.05 |
---|---|
[데이터 분석가의 숫자 유감] #상관관계와 인과관계, 모수와 표본 (1) | 2023.11.24 |
[데이터넥스트레벨챌린지 1기] 세번째 미션 (2) | 2023.10.22 |
[데이터넥스트레벨챌린지 1기] 첫번째 미션 (2) | 2023.10.03 |