본문 바로가기

데이터 사이언스

추론 통계(Inferential statistics)

추론 통계는 표본을 이용하여 모집단의 특성을 추측하는 과정이에요. 

표본 추출 -> 가설, 검정 -> 회귀, 예측 순으로 진행되어요.

 

1. 표본추출

 

데이터 집합인 모집단에서 얻은 데이터의 부분 집합을 표본(sample)이라고 해요.

표본을 추출하는 방법은 2가지가 있어요.

  • 임의표본추출(임의표집, 랜덤표본추출, random sampling) : 무작위로 표본을 추출하는 것
    • 복원추출(with replacement) : 추첨 후, 중복 추출이 가능하도록 모집단에 샘플을 다시 포함 시키는 방법
    • 비복원추출(without replacement) : 한번 뽑힌 원소는 추첨하지 다음번 추첨에 사용하지 않는 방법
    • 단점 : 모집단을 잘못 대표하는 표본 편향이 발생할 수 있어요.
  • 층화표본추출(층화표집, stratified sampling) : 모집단을 층으로 나눈 뒤, 각 층에서 무작위로 표본을 추출하는 것
    • 표본 편향을 줄일 수 있어요.
    • 특정 층의 표본 수가 적다면 높은 가중치를 주는 표본추출로 계층마다 동일한 표본 크기를 얻을 수 있게 보완해요. 

2. 표본분포(sampling distribution)

 

여러 표본들로부터 얻은 표본통계량의 도수분포에요.

도수분포(freqency distribution)는 어떤 구간에 해당하는 수치 데이터 값의 빈도를 표시해요.

  • 정규분포 : 종모양. 평균과 중간값은 같고, 분포의 중심에 있어요.
    • 데이터의 68%는 평균의 표준편차 안에 속하고, 95%는 표준편차 2배수, 99.7%는 표준편차 3배수 안에 있어요.
    •  
  • 이항분포 : n번 시행에서 성공한 횟수에 대한 분포에요.
    • 두 가지의 결과를 갖는 이항식에 대한 결과에요. 참/거짓 또는 예/아니오
    • 중요한 결정 사항을 나타내므로 모델을 만들 때 중요해요.
  • 카이제곱분포 : 적합도를 검정해요
    • 일반적으로 범주에 속하는 주제 또는 하옥의 수와 관련이 있어요.
    • 카이제곱통계는 귀무 모델의 기댓값에서 벗어난 정도를 측정해요.
    • 기대값은 데이터에서 주목할 만한 것이 없다는 뜻으로 상관관계가 없음을 의미해요.
  • 푸아송분포 : 표집된 단위 시간 또는 단위 공간에서 발생한 사건의 도수분포를 말해요.
    • 주어진 어떤 비율에 따라 임의로 발생시키는 사건의 수를 모델링해요.
    • 어떤 일정시간/공간의 구간에서 발생한 평균 사건의 수를 람다라고 해요.

3. 가설과 검정

 

어떤 가설을 확인하거나 기각하기 위한 목표를 갖고 있어요.

  • A/B 검정 : 2가지 처리 방법, 제품, 절차 중 어느 쪽이 다른 한 쪽보다 더 우월하는 것을 입증하기 위해 두 그룹으로 나누어 실험을 진행해요.
    • 처리군 : 특정 처리에 노출된 대상들의 집단
    • 대조군 : 어떤 처리도 하지 않은 대상들의 집단
    • 일반적인 가설은 처리군이 대조군보다 낫다를 세워요.
  • 가설검정 : 관찰된 효과가 우연에 의한 것인지를 알아내는 것이 목적이에요.
    • 귀무가설 : 우연 때문이라는 가설 (영가설)
    • 대립가설 : 귀무가설과 대조 (증명하려는 가설)
    • 일원검정 : 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
    • 이원검정 : 양방향으로 우연히 일어날 확률을 계산하는 가설검정
    • 귀무가설이 틀렸다는 것을 입증해서 A와 B의 차이가 우연이 아니라는 것을 보여주려고 해요.
  • 유의성검정 : 관찰된 효과가 귀무가설 모형에 대한 무작위 변이의 범위 내에 있는지 결정하는 데 사용되어요.
    • 유의수준(알파) : 귀무가설 모델에서 비정상이라고 판단할 임계값 
    • p값 : 귀무가설의 결과가 관측된 결과만큼 극단적으로 나타날 확률
  • t검정 : 널리 사용되는 표준화된 통계량이 t 통계량이에요.
    • 검정통계량 : 관심이 차이 또는 효과에 대한 측정 지표
    • t분포 : 관측된 t통계량을 비교할 수 있는 기준 분포
  • 분산분석(ANOVA) : 여러 그룹의 수치 데리어를 비교하여 통계적으로 유의미한 차이를 검정하는 절차에요
    • F통계량 : 그룹 평균 간의 차이가 예상되는 것에서 벗어나는 정도를 측정하는 두 분산의 비율 값
  • 카이제곱검정 : 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지를 검정해요.
    • 변수 간의 독립성에 대한 귀무가설이 타당한지를 평가해요.

4. 회귀와 예측

 

  • 단순선형회귀 : 한 변수와 다른 변수의 크기 사이에 어떤 관계에 대한 모델을 제공해요.
    • 상관 관계 : 두 변수 사이의 관련 강도를 측정
    • 회귀 : 관계 자체를 정량화 하는 방법으로 예측과 설명 모두에 사용
    • 응답변수(반응변수) : 에측하려는 변수 (종속 변수, 변수 Y)
    • 독립변수 : 응답변수를 예측하기 위한 변수 (예측변수, 변수 X)
    • 최소제곱 : 잔차의 제곱합을 최소화하여 회귀를 피팅하는 방법
  • 다중선형회귀 : 예측 변수가 여러 개인 경우
  • 예측 : 회귀의 주된 목적이에요.
    • 예측구간 : 개별 예측값 주위의 불확실한 구간
    • 충분한 데이터 값이 있는 예측변수에 대해서만 유효해요.

'데이터 사이언스' 카테고리의 다른 글

기술 통계(Descriptive Statistics)  (0) 2022.02.17
데이터 과학을 위한 통계  (0) 2022.02.15
R 설치, R Studio 설치  (0) 2022.02.11
데이터분석을 위한 자격증  (0) 2022.02.10