본문 바로가기

데이터과학

(3)
추론 통계(Inferential statistics) 추론 통계는 표본을 이용하여 모집단의 특성을 추측하는 과정이에요. 표본 추출 -> 가설, 검정 -> 회귀, 예측 순으로 진행되어요. 1. 표본추출 데이터 집합인 모집단에서 얻은 데이터의 부분 집합을 표본(sample)이라고 해요. 표본을 추출하는 방법은 2가지가 있어요. 임의표본추출(임의표집, 랜덤표본추출, random sampling) : 무작위로 표본을 추출하는 것 복원추출(with replacement) : 추첨 후, 중복 추출이 가능하도록 모집단에 샘플을 다시 포함 시키는 방법 비복원추출(without replacement) : 한번 뽑힌 원소는 추첨하지 다음번 추첨에 사용하지 않는 방법 단점 : 모집단을 잘못 대표하는 표본 편향이 발생할 수 있어요. 층화표본추출(층화표집, stratified s..
기술 통계(Descriptive Statistics) 데이터를 분석한다는 것은 의사결정을 위해 정보를 수집하고 정리, 변환, 모델링하는 과정을 모두 의미해요. 데이터를 정리하고 요약하는 가장 기초적인 단계에 사용되는 것이 기술 통계에요. 기술 통계에서 구한 값을 기초로 추론 통계를 하게 되죠. 수집한 데이터를 온전히 바라보는 것 즉 데이터를 설명하는 목적이 기술 통계(Descriptive Statistics)에요. 기술 통계는 데이터 표본에 대한 간략한 요약을 나타내요. 데이터에서 무슨 일이 발생하고 있는지를 살펴보는 방법이죠. 중간을 나타내는 위치 추정과 변동성을 측정하는 변이 추정으로 나눌 수 있어요. 1. 위치 추정 (중심 경향성) 평균, 중간값, 최빈값이 포함되어요. 일반적으로 대표값이라고 해요. 데이터 세트에 대한 빈도를 알려주고, 분포의 중심을 ..
데이터 과학을 위한 통계 데이터 분석을 하기위해 통계가 필요해요. 통계를 학문적으로 접근하는 게 아니어서, 제가 하는 일에 접목할 수 있는 책을 찾아서 구입했어요. O'reilly 출판사의 책을 번역한 한빛미디어의 [데이터 과학을 위한 통계] 2판이에요. 저자는 피터 브루스, 앤드루 브루스, 피터 게데크 여러 서점에서 판매하고, 가격은 비슷해요. (3만원대) 통계 용어를 정의하고, 파이썬과 R로 결과를 보여줘서 책을 읽으며 이해하기 좋은 거 같아요. 하지만, 역시 통계는 어렵네요. 실무에 적용할 때 필요한 통계 기법을 정확하게 구분해서 알고 있어야 하는 부분에 대한 이해와 공부가 필요해요. 결과를 얻는 방법은 파이썬, R, 엑셀 모두 가능하니까 해석이 관건이네요. 목차는 1장 ~ 7장으로 구성되어 있어요. CHAPTER 1 탐색..