버튼 수집상

[책] 새빨간 거짓말, 통계 본문

일상 - 책

[책] 새빨간 거짓말, 통계

cocokaribou 2024. 5. 8. 15:04

인용문과 직접 찾아본 개념들 정리.


도입부

만일 당신이 언젠가 평균적인 미국인은 하루에 평균 1.02회 이를 닦는다는 기사를 읽게 된다면 스스로 이렇게 물어보라.
"도대체 그걸 어떻게 알아낼 수 있었지?"

 

임의추출법

기초가 될 표본은 '임의추출' 된 것이라야 한다. 즉 표본은 모집단으로부터 순전히 우연에 의해 추출되어야 한다.

 

층별 임의추출법

완벽한 표본을 얻기가 매우 힘들 뿐만 아니라 비용이 너무 많이 들기 때문에 (...) 경제적인 대안으로 '층별 임의추출법'이라 불리는 표본을 사용한다.

요즘 ML 기초수업에서 배운 K-Fold 랑 관련이 있을까 찾아봤다.

층화 임의 추출 (Stratified Random Sampling) 라고 하는 것 같다.

층화 임의 추출이란, 모집단을 몇가지 특징을 기준으로 서브그룹으로 나누어, 각 그룹의 원소로부터 임의로 추출하는 법을 일컫습니다. 특징을 바탕으로 나누어진 그룹을 우리는 계층(stratum)이라고 부릅니다. '특징'이라 하면, 성별 혹은 자동차의 유무, 연봉의 정도 등이 될 수 있겠죠. 모집단을 특성(characteristics)를 기반으로 몇개의 계층으로 나누었다면, 각 층별로 표분추출틀(sampling frame)을 작성합니다. 모집단에서 추출하고자 하는 표본의 크기를 n으로 정했다면, 이 n을 각 계층에 적절히 분배 합니다.
- 출처 https://jangpiano-science.tistory.com/131

 

추출한 층 단위는 폴드가 아니라 프레임이라고 부르는 것 같다.

 

평균값 Average

- 산술평균값 Mean

- 중앙값 Median

- 최빈값 Mode

신장의 분포를 나타낼 때는 어떤 종류의 평균값을 쓰더라도 큰 차이는 없지만 소득 분포를 나타낼 때는 그렇지 않다. (...) 어쩌면 전체의 95% 이상의 세대가 올린 소득은 5천만원 (전 맥락에서 언급된 산술평균값) 이하로 이를 곡선으로 나타내면 왼쪽으로 쏠린 모양으로 나타날 것이다. (...) 이 경우 산술평균값은 중앙값과 큰 차이를 보이게 된다.

-> 정규분포에 가까운 분포를 보이는 자료는 산술평균값, 중앙값, 최빈값의 차이가 크지 않다.

-> 분포의 쏠림 정도는 스큐 Skew, 왜도라고 부른다. 

당신이 평균급여라는 이름의 수치를 보았다면 항상 이런 질문부터 해야 한다.
"어떤 종류의 평균값이오? 그 평균값을 계산할 때, 누구까지 포함했나요?"

 

 

게젤의 준거

준거에 해당하는 표준치와 자기 아이와의 근소한 수치 차이가 부모들의 고통을 유발하는 현상.

 

통계치의 오차범위

IQ나 기타 여러 표본 추출에서 얻은 결과를 언급할 때는 얻은 결과 외에 그 범위에 대해서도 언급하여야 한다는 점을 알 수 있다. 이 양(초과)과 음(부족)에 대한 생각은 항상 마음 속에 넣어두어야 하며 오차 범위가 제시되어 있지 않더라도 염두에 두어야만 한다.

 

그림으로 속이기

2배 차이나는 변량을 그래픽으로 표기할 때 너비와 높이를 각각 2배씩 늘리는 실수.

사실은 너비와 높이 모두 2배씩 늘어나서 2^2 = 4배가 된 그림.

거기다가 돈자루가 3차원 물체인 것을 감안하면 깊이까지(z축) 곱해져 실제로는 2^3 = 8배가 된다.

숫자는 2:1이지만 돈자루 그래픽이 주는 인상은 8:1인 것.

 

연간 투자액에 대한 수익과 총 매출실적에 대한 이익은 다르다.

"매일 아침 어떤 상품을 99센트에 사서 오후에는 1달러에 팔면 이윤은 매출 실적의 1%밖에 되지 않는다. 그러나 이를 1년간 계속하면 투자액의 365%의 이윤을 얻을 수 있다."
어떤 숫자이건 간에 그것을 표현하는 방법은 여러가지가 있다. 똑같은 사업 실적이라도 이를 매출 실적의 1% 이익이라든가, 투자액의 15% 이익, 또는 1천만 달러의 이윤이라던가, 40%의 이익신장률 (...) 여러가지 방식으로 얼마든지 표현할 수가 있다.

 

통계도 논리다.

전후관계와 인과관계를 혼동하는 오류를 범하지 않도록1), 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다.
1)역주: 시간적 발생에 따라 인과관계를 설명하려는 논리적 오류, post hoc fallacy

 

공분산 co-variation

상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지 분명하게 드러나지 않을 때 사용.
어떤 경우에는 원인과 결과가 때때로 서로 뒤바뀌는 경우도 있고, 또 양쪽이 동시에 원인이 되기도 하고 결과가 되기도 하는 경우이다.
(...) 예를 들어 전구에서 멀리 떨어지면 떨어질수록 빛의 밝기는 줄어듦으로, 거리와 빛의 밝기는 반비례 관계에 있다. 그런데 물리학에서는 완벽한 상관관계를 가지는 경우도 많이 있다. 반면에 경영학이나 사회학 또는 의학 분야에서는 이런 이상적인 경우는 거의 일어나지 않는다.

 

ML에서의 covariance

실제로 데이터 분석을 하다보면, 분석에 바탕이 되는 중요한 분석 기법 중 하나가 상관분석입니다. 내가 가진 데이터의 변수들 간의 서로 어떠한 관계가 있는지 살펴보는 것인데요. 다만 단순히 '관계가 있다'와 '얼마만큼의 관계가 있다' 는 누군가를 설득시키는 데 있어 큰 차이를 보일 것입니다. 

공분산은 임의의 두 확률변수 x, y 사이의 선형관계에 대한 정보를 알려주는 sign.
즉 공분산이 양수라면 두 확률변수는 서로 양의 선형 관계가 있음을 의미하고, 공분산이 음수라면 두 확률변수는 서로 음의 선형 관계가 있음을 의미합니다. (...) 공분산이 0이라는 의미는 두 변수간 아무런 선형 상관관계가 없다는 것이죠.
- 출처 https://datalabbit.tistory.com/15

 

변수 하나에 대해 따지던 분산을 변수 둘 사이의 분산으로 확장한 게 공분산이다.
- 출처 https://blog.naver.com/prayer2k/222624821291

공분산 < 0, 공분산 = 0, 공분산 > 0

색칠한 지도

통계적 데이터를 가장 교활하게 잘못 나타내는 방법 중의 하나로 지도를 이용하는 방법이 있다. 지도는 사실을 감추어둔 채 여러 관계들을 일그러지게 만들어 줄 수 있는 변량들이 담겨있는 주머니처럼 소개된다.

-> 색칠된 지역의 면적을 단순 비교하면서 인구밀도 등 다양한 변수들을 간과하게 될 수 있음.

 

속지 않기 위한 5가지 방법

1. 누가 발표했는가? 출처를 캐 봐야 한다

2. 어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다

3. 빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다

4. 내용이 바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다 (기초가 된 데이터와 결론 사이에 어떤 바꿔치기가 있었는지)

5. 상식적으로 말이 되는 이야기인가 살펴 보고 조사해라

 

728x90