한 걸음 두 걸음

확률 및 통계 #01 ] 본문

Etc

확률 및 통계 #01 ]

언제나 변함없이 2019. 3. 9. 15:41
반응형

데이터를 표현하는 방법

  1. 그림으로 표현
    이는 한 눈에 파악하기 쉬우며 정리하기 쉽다는 장점이 있지만 주관적으로 알게된다는 단점이 있습니다. 그래서 그림 또는 표 대신에 숫자 또는 값으로 나타내고 있습니다. (:척도)

  2. 숫자로 표현
    여기서 대푯값은 평균(x바)로 나타냅니다.(위치척도 = 대푯값)
    뮤(mu, 다리 한 쪽 더 길다.)는 모집단의 표본 평균을 나타내는 기호입니다.

이상 값 (=동떨어진 값)

이상값이 있을 때 평균이 대표값을 하는 기능을 잃게 만들 수 있습니다. 따라서 신뢰할 수 있는 대푯값을 만들기 위해 중앙값을 사용합니다.

최빈값

가장 빈도가 많이 나온 값으로,
0, 1, 1, 2 인 경우 1이 최빈값입니다.
0, 1, 2, 3 인 경우 최빈값은 없습니다.

절사 평균

심사위원들의 점수를 사용할 때 쓰는 방식으로, 가장 높은 값과 가장 낮은 값을 제외한 나머지 점수를 활용합니다.
20% 절사평균이면 5명중 가장 극단적인 2명의 점수를 제하고 나머지 3명의 평가점수를 결과에 반영합니다.

산포

산포(얼마나 떨어져 잇는 가)를 이해하기 위해 편차와 분산에 대해 배워봅시다.

X1 X2... x바... Xn가 순차적으로 있을 때 편차는

X2 - X바
X3 - X바
..
Xn - X바
이다. 이를 모두 합하면 편차의 합 = 0 이되므로,(x바가 평균)


모든 편차값을 절대값으로 더한 편차합이나, 편차곱(편차값을 제곱시킨 것을 모두 더한 값)을 활용합니다.

하지만, 편차곱의 경우, N값이 커질 수록 편차곱이 커져버리는 문제가 있으므로
패널티 n-1을 나눠줍니다.(표본평균의 x바를 활용했기 때문에 n-1입니다. 모집단의 경우라면 n으로 나눕니다.)

이는 분산을 나타내는 것으로, 제곱된 값이기에 진짜 편차를 구하기 위해서는 루트를 씌워 S, mu로 사용합니다.

5가 통계량

X1 X2 X3... Xi ... Xn일 때,
최소 최대

최솟값과 중앙값 사이의 가운데 값(25%)을 하사분위 수(Q1),
최댓값과 중앙값 사이의 가운데 값(75%)을 상사분위 수(Q3)로 표현합니다.

범위 또한 산포를 나타내기 위한 방법 중 하나로 사용되는데,
범위 = 최댓값 - 최솟값 입니다.
범위값이 적을 수록 모여있다는 뜻으로 해석되나, 가끔 극단적인 경우가 생기는 경우 신뢰할 수 없게 되기 때문에 사분위간 범위(IQR = Q3 - Q1)를 사용합니다.

반응형

'Etc' 카테고리의 다른 글

memo  (0) 2019.04.19
모바일앱개발자 취업준비  (0) 2019.04.16
파이썬 개발환경 세팅!  (0) 2019.03.25
Software Engineer  (0) 2019.03.22
slack 프로그램 설치하여 사용하기  (0) 2019.02.20