이상엽 기초수학 정주행 4회차 - 확률과 통계란 무엇인가?

2023. 3. 31. 00:20기초수학

1. 확률론

확률이 처음 수학적으로 다뤄진 것은 앙투안 공보라는 작가가 샬롱이라는 단체에 주사위 문제와 분배 문제를 제시하면서 시작되었다. 그 문제를 본 파스칼이 그것을 풀고자 했으나 생각보다 어려워서 페르마에게 이것을 의뢰한 것이다. 그렇게 파스칼과 페르마가 서로 서신을 주고 받으면서 확률이라는 학문이 생겼다고 한다. 그럼 주사위 문제가 어떤 문제인지 보자.

주사위 문제

'하나의 정육면체 주사위를 n번 던져서 적어도 한 번 6이 나오면 이기는 도박' 에서 만약 n = 4라면 던지는 쪽이 유리하다. 그렇다면 두 개의 주사위를 던져서 적어도 한 번 (6, 6)이 나오면 이기는 도박에서 주사위를 몇 번 던져야 이길 승산이 있을까?

- 앙투안 공보의 주장 = 24번
- 페르마와 파스칼의 답변 = 25번

주사위의 수가 1개에서 2개로 늘어나게 되면 주사위 전체 눈금 수의 배수 즉, 6배만큼 늘어나서 6개에서 36개만큼 늘어나게 된다. 그래서 앙투안 공보는 주사위가 1개면 4번을 던졌을 때, 유리했으니 거기에 단순히 6배를 한 것이다. 다만 페르마와 파스칼은 이를 수학적으로 계산한 결과, 25번이라는 결과가 도출되었다. 방법 자체는 간단하다. (35/36)^n < 0.5를 만족하는 가장 작은 n의 값을 구한 것이다.

 

분배문제

실력이 같은 두 사람이 같은 돈을 걸고 게임을 해서 먼저 5점을 얻는 사람이 돈을 모두 가지기로 하였다. 그런데 4:3의 득점 상황에서 게임이 중단된다면 돈을 어떻게 나누어 가져야 하는가?

- 처음 파스칼의 답 = 2 : 1
- 페르마의 답 = 3 : 1
- 수정된 파스칼의 답 = 3 : 1

A와 B라는 사람이 4 : 3의 스코어를 가진 상황이라면 A는 1점이 남은 상황, B는 2점이 남은 상황이니 A가 B보다 2배 유리하니까 2 : 1로 분배하자고 이야기한 것이 처음 파스칼의 답이었다. 하지만 페르마는 경우의 수를 4가지로 나누었다.

  1. A가 이긴 후, A가 이기는 경우
  2. A가 이긴 후, B가 이기는 경우
  3. B가 이긴 후, A가 이기는 경우
  4. B가 이긴 후, B가 이기는 경우

여기서 5선승이기 때문에 1, 2에서 말하는 "A가 이긴 후" 라는 것은 존재할 수 없지만 경우의 수를 나열했을 때, 매치포인트에서 A가 이기는 경우를 단순히 다른 경우와 동일하게 취급하는 것이 아니라 더 높은 비중으로 취급하는 것이 더 합당하다는 것이다. 이에 파스칼은 페르마의 답에 찬사를 보내고 이항정리라는 것을 만들었다. 이기는 순서를 다음과 같이 나열했더니 어디서 많이 본 식이라는 것이다.

AA, AB, BA, BB → AA + AB + BA + BB → A^2 + 2AB + B^2

(A + B)^2 = A^2 + 2AB + B^2
(A + B)^3 = ...
(A + B)^4 = ...

 

이 문제를 계기로 파스칼은 이항정리에서 거듭제곱에 대한 일반화를 시키게 되었다. 후에 확률에서 이는 아주 중요한 요소가 되었다. 시간이 지나면서 확률은 수학의 중요한 부분으로 자리잡았고 라플라스라는 사람이 확률의 해석이론이라는 저서에서 확률에 대해서 정의를 내리게 된다. 이것이 우리가 배웠던 고전적인 확률의 정의이다.

사건 A의 확률 P(A)는 다음과 같다.
P(A) = A가 일어나는 모든 경우의 수 / 시행에서 가능한 모든 경우의 수

어떤 결과가 더 많이 발생한다고 믿을 이유가 없다면 모든 결과는 같은 가능성을 가진다고 가정한다. 이는 경우의 수가 무한인 경우에도 마찬가지이다.

 

 

2. 통계학

통계학에서 이야기하는 것은 기존에 모았던 수많은 데이터들을 통해서 그것을 분석하고 추론하고 의사를 결정하는 행위에 대한 것이다. 이 학문의 포문을 연 사람은 알 킨디라는 사람이라고 할 수 있으며 약 1000년간 사용되었던 단일 치환 암호를 통계를 이용해서 뚫어버리는 업적을 세웠다. 빈도분석법을 이용한 것인데 방법은 아래와 같다.

  • 평문과 암호문으로 대응되는 문자의 출현빈도가 일치한다는 통계적 특징을 전제로 단일 치환 암호를 해독하는 방법
  • 빈도 분석 및 연접, 반복 특징 추론 등을 통해 단일 환자식 암호는 대부분 무력화되었다.
ex) 춤닉치니 바사. 추시촤 캅께 치돛카사.
→ 움닉이지 바사. 우리와 합께 이동하라.
→ 움직이지 마라. 우리와 함께 이동하라.

 

통계학이 본격적으로 발전한 것은 존 그란테라는 사람이 런던의 출생, 사망자의 수를 주간 단위로 통계를 내고 이후의 인구를 추정하는 시도를 하면서 발전하게 되었다. 그렇게 발전하면서 나온 개념 중에 케틀레라는 사람이 만든 평균이라는 것이 있는데 이게 꽤 센세이션했다고 한다. 평균인이라고 해서 한 국가의 사람들의 평균 키, 몸무게 등을 수치로 나타낸 것인데 일반적으로 한 국가의 대표적인 사람이라고 하면 왕이나 아주 훌륭한 평판의 성직자를 떠올리기 마련이었는데 아예 수치를 통해 한 국가의 모든 사람들을 대변하는 사람이라는 것을 표현한 것이었기 때문이다.

 

다만 나치에서 사람들을 판단할 때, 몇몇 항목들을 만들어 놓고 이 항목에 평균을 구해서 평균에 미달된 사람들은 결혼과 출산을 하지 못하게 만들어서 사람들의 평균 수준을 끌어올린다는 우생학이 만들어지는 원인이 되었다. 역설적이게도 이 기간동안 통계학은 굉장한 발전을 이루었다고 한다.

 

 

3. 확률의 함정

과녁 전체의 반지름은 5, 각각 서로 1차이의 반지름을 가진다.

위와 같은 과녁이 있을 때, 사수가 노란 영역을 화살을 맞출 확률은 얼마일까? 단, 화살이 과녁을 맞추지 못하는 확률은 없다고 가정한다. 이것을 우리가 배운대로 수학적으로 계산해보면 1/25이 나온다. 아마 대부분의 사람들이 이렇게 생각할 것이다. 그런데 아래를 보자.

사수가 과녁을 바라보고 있다.

사수가 다음과 같이 과녁에 활을 쏜다고 할 때, 사수가 과녁의 중앙을 기준으로 왼쪽을 맞출 확률과 오른쪽에 맞출 확률은 각각 얼마일까? 각각 1/2라고 할 수 있을 것이다. 그럼 또 거기서 시야각을 1/4씩 나누면 어떻게 될까? 1/8, 1/16으로 나누면 어떻게 될까? 직접 나눠보면 알겠지만 과녁의 바깥쪽의 길이가 좀 더 길다. 동일한 길이를 기준으로 했을 때, 중앙 지점이 더 높은 확률을 가지는 것이다. 그럼 아까 1/25라는 확률이 나왔었는데 과연 이것이 맞는걸까?

 

이번에는 다음 문제를 소개해보겠다. 정답을 맞춰보자.

얼마가 나올까?

 

1) 사실 정답은 1/3이다.

정삼각형의 세 꼭짓점 중에서 임의의 꼭짓점을 잡고 그걸 기준으로 현을 그린다고 해보자. 이제 초록색 원을 출발점으로 빨간쪽으로 현을 만들면 정삼각형의 한 변의 길이보다 짧을 것이고 파란쪽으로 선을 이으면 정삼각형의 한 변의 길이보다 길 것이다. 그런데 파란쪽으로 선이 그어질 확률이 1/3이기 때문에 정답은 1/3인 것이다.

초록색 원을 기준으로 현을 그려보자.

 

2) 사실 정답은 1/2이다.

이게 갑자기 뭔 헛소리인가 싶겠지만 정말 1/2이다. 왜냐하면 아래의 그림처럼 선을 하나 그으면 곧 바로 알 수 있는데 두 선 사이로 현을 만든다고 할 때, 가로줄로 현을 만들게 되면 전체 길이 4중에서 2에 해당하는 부분만큼 가로줄을 그을 수 있기 때문에 이렇게 현을 만든다면 1/2의 확률이 나오는 것이다.

초록색 선과 같이 현을 만든다.

 

3) 사실 정답은 1/4이다.

아래의 그림을 보자. 빨간색으로 찍은 점은 어떤 현의 중점을 의미한다. 우리는 초기에 주어진 원의 어떤 부분에든 점을 찍는 것이 가능하다. 그리고 우리는 그 점을 지나는 현을 반드시 그릴 수 있다. 그런데 여기서 그림에 안쪽 원이 추가된 것을 볼 수 있을 것이다. 여기서 중요한 것은 그 안 쪽 원에 점을 찍은 후에 그 점을 중점으로 하는 현을 그리면 정삼각형의 한 변의 길이보다 더 긴 현을 만드는 것이 가능하다는 것이다. 그리고 여기서 저 작은 원의 반지름을 1이라고 할 때, 바깥 원의 반지름이 2이기 때문에 넓이는 4배가 되고 따라서 답은 1/4가 되는 것이다.

어떤 점을 찍든 중점을 지나는 현을 그릴 수 있다.

 

4) 이게 뭐야?!

왜 이런 일이 일어나는 걸까? 셋 중 어떤 풀이식이 우리에게 사기를 치고 있는 걸까? 사실 "고전적인 확률" 의 정의에 의하면 셋 다 정답이 맞으며 전부 논리적인 허점은 존재하지 않는다. 그럼 뭐가 문제일까? 애초에 문제에서 말하는 임의의 현이라는 것이 뭘까? 세 풀이식에서 임의의 현을 결정하는 방식이 서로 다른데 문제에서 원했던 방식은 무엇이었을까?

 

이 문제는 확률의 정의가 연속공간을 생각하지 않고 이산공간만을 생각해서 정의된 것이었기 때문이다. 이후에 확률의 정의가 바뀌게 되었다. 특정 공리가 만족하면 이것을 확률이라고 부르자고 정해놓은 것들이 있는데 강의에서는 아직은 너무 어려워서 넘어간다고 했으니 일단은 아래와 같이 적고 넘어가자. 이 개념을 제대로 다루기 위해서는 적분에 대해 다뤄야 하는데 적분은 나중에 다룰 예정이기 때문이다.

  • 확률 객체에 대한 균등성, 임의성, 명확성 등은 라플라스의 고전적 확률의 정의만으로 (특히 연속표본공간에서) 보장되지 않는다.
  • 콜모고로프는 모든 표본공간에서 정의되는 확률을 공리화 했다.
  • 이산표본공간에서는 균등성 여부에 따라 수학적, 통계적 확률이 공리적 확률을 만족하며, 연속표본공간에서는 기하적 측도가 공리적 확률을 만족한다.
  • 균등성을 가장한 점의 측도는 영역의 비로 표현한다. 마찬가지로 직선의 균등성 또한 모양과 크기가 같은 영역이 같은 밀도의 직선을 품는다는 전제를 한다.
  • 이는 평면상에 균등하게 분포된 직선이 (독립적인) 위치 및 회전변환에 관계없이 항상 일정하다는 공리적 전제를 필요로 한다.

최종적으로 위의 내용을 근거로 하면 베르트랑 문제의 정답은 1/2가 된다. 선을 그을 때 어떤 부분을 가져온다고 해도 밀도가 전부 같아야 하기 때문이다.

 

 

4. 통계학은 응용수학

사실 강의의 맨 마지막 내용이었는데 시간이 없어서 얼마 다루지 못해서 아래에 결론 부분만 적으려고 한다.

  • 통계학은 실증적인 뿌리를 가지고 있으며 실질적 활용에 초점을 맞추고 있기 때문에 흔히 순수수학과는 다소 구분되는 응용수학의 일종으로 여겨진다.
  • 통계학의 방법을 통해, 실제의 수치들을 왜곡하여 해석하는 것을 막고 연구를 바탕으로 합리적인 의사결정을 할 수 있어야 한다.