추론 통계는 표본을 이용하여 모집단의 특성을 추측하는 과정이에요.
표본 추출 -> 가설, 검정 -> 회귀, 예측 순으로 진행되어요.
1. 표본추출
데이터 집합인 모집단에서 얻은 데이터의 부분 집합을 표본(sample)이라고 해요.
표본을 추출하는 방법은 2가지가 있어요.
- 임의표본추출(임의표집, 랜덤표본추출, random sampling) : 무작위로 표본을 추출하는 것
- 복원추출(with replacement) : 추첨 후, 중복 추출이 가능하도록 모집단에 샘플을 다시 포함 시키는 방법
- 비복원추출(without replacement) : 한번 뽑힌 원소는 추첨하지 다음번 추첨에 사용하지 않는 방법
- 단점 : 모집단을 잘못 대표하는 표본 편향이 발생할 수 있어요.
- 층화표본추출(층화표집, stratified sampling) : 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
- 표본 편향을 줄일 수 있어요.
- 특정 층의 표본 수가 적다면 높은 가중치를 주는 표본추출로 계층마다 동일한 표본 크기를 얻을 수 있게 보완해요.
2. 표본분포(sampling distribution)
여러 표본들로부터 얻은 표본통계량의 도수분포에요.
도수분포(freqency distribution)는 어떤 구간에 해당하는 수치 데이터 값의 빈도를 표시해요.
- 정규분포 : 종모양. 평균과 중간값은 같고, 분포의 중심에 있어요.
- 데이터의 68%는 평균의 표준편차 안에 속하고, 95%는 표준편차 2배수, 99.7%는 표준편차 3배수 안에 있어요.
-
- 이항분포 : n번 시행에서 성공한 횟수에 대한 분포에요.
- 두 가지의 결과를 갖는 이항식에 대한 결과에요. 참/거짓 또는 예/아니오
- 중요한 결정 사항을 나타내므로 모델을 만들 때 중요해요.
- 카이제곱분포 : 적합도를 검정해요.
- 일반적으로 범주에 속하는 주제 또는 하옥의 수와 관련이 있어요.
- 카이제곱통계는 귀무 모델의 기댓값에서 벗어난 정도를 측정해요.
- 기대값은 데이터에서 주목할 만한 것이 없다는 뜻으로 상관관계가 없음을 의미해요.
- 푸아송분포 : 표집된 단위 시간 또는 단위 공간에서 발생한 사건의 도수분포를 말해요.
- 주어진 어떤 비율에 따라 임의로 발생시키는 사건의 수를 모델링해요.
- 어떤 일정시간/공간의 구간에서 발생한 평균 사건의 수를 람다라고 해요.
3. 가설과 검정
어떤 가설을 확인하거나 기각하기 위한 목표를 갖고 있어요.
- A/B 검정 : 2가지 처리 방법, 제품, 절차 중 어느 쪽이 다른 한 쪽보다 더 우월하는 것을 입증하기 위해 두 그룹으로 나누어 실험을 진행해요.
- 처리군 : 특정 처리에 노출된 대상들의 집단
- 대조군 : 어떤 처리도 하지 않은 대상들의 집단
- 일반적인 가설은 처리군이 대조군보다 낫다를 세워요.
- 가설검정 : 관찰된 효과가 우연에 의한 것인지를 알아내는 것이 목적이에요.
- 귀무가설 : 우연 때문이라는 가설 (영가설)
- 대립가설 : 귀무가설과 대조 (증명하려는 가설)
- 일원검정 : 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
- 이원검정 : 양방향으로 우연히 일어날 확률을 계산하는 가설검정
- 귀무가설이 틀렸다는 것을 입증해서 A와 B의 차이가 우연이 아니라는 것을 보여주려고 해요.
- 유의성검정 : 관찰된 효과가 귀무가설 모형에 대한 무작위 변이의 범위 내에 있는지 결정하는 데 사용되어요.
- 유의수준(알파) : 귀무가설 모델에서 비정상이라고 판단할 임계값
- p값 : 귀무가설의 결과가 관측된 결과만큼 극단적으로 나타날 확률
- t검정 : 널리 사용되는 표준화된 통계량이 t 통계량이에요.
- 검정통계량 : 관심이 차이 또는 효과에 대한 측정 지표
- t분포 : 관측된 t통계량을 비교할 수 있는 기준 분포
- 분산분석(ANOVA) : 여러 그룹의 수치 데리어를 비교하여 통계적으로 유의미한 차이를 검정하는 절차에요.
- F통계량 : 그룹 평균 간의 차이가 예상되는 것에서 벗어나는 정도를 측정하는 두 분산의 비율 값
- 카이제곱검정 : 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정해요.
- 변수 간의 독립성에 대한 귀무가설이 타당한지를 평가해요.
4. 회귀와 예측
- 단순선형회귀 : 한 변수와 다른 변수의 크기 사이에 어떤 관계에 대한 모델을 제공해요.
- 상관 관계 : 두 변수 사이의 관련 강도를 측정
- 회귀 : 관계 자체를 정량화 하는 방법으로 예측과 설명 모두에 사용
- 응답변수(반응변수) : 에측하려는 변수 (종속 변수, 변수 Y)
- 독립변수 : 응답변수를 예측하기 위한 변수 (예측변수, 변수 X)
- 최소제곱 : 잔차의 제곱합을 최소화하여 회귀를 피팅하는 방법
- 다중선형회귀 : 예측 변수가 여러 개인 경우
- 예측 : 회귀의 주된 목적이에요.
- 예측구간 : 개별 예측값 주위의 불확실한 구간
- 충분한 데이터 값이 있는 예측변수에 대해서만 유효해요.
'데이터 사이언스' 카테고리의 다른 글
기술 통계(Descriptive Statistics) (0) | 2022.02.17 |
---|---|
데이터 과학을 위한 통계 (0) | 2022.02.15 |
R 설치, R Studio 설치 (0) | 2022.02.11 |
데이터분석을 위한 자격증 (0) | 2022.02.10 |