본문 바로가기

데이터분석

(11)
대시보드 - 서식 2 대시보드 본문을 어떻게 구성할지 레이아웃을 결정해야 한다. 회사 레이아웃이 없다면 다른 회사의 보고서를 참고하여 만든다. 대부분 큰 차이가 있지는 않다. 전체 현황과 기간별 현황을 먼저 표로 만들어서 상단에 표시한다. 1. 전체 현황 분석 미리보기로 완성한 그림이다. 1) 본문 제목에 대한 글꼴 서식을 통일한다. (전체 현황, 기간별 현황) 2) 카드로 만든 값은 [선택한 영역의 가로로]를 선택하여 숫자가 #### 으로 표시되지 않도록 한다. 카드 제목과 숫자의 서식은 임의로 설정한다. 테두리와 채우기로 설정한다. 셀 서식 창에서 한번에 작업하면 편리하다. 셀 서식의 단축 키는 Ctrl + 1 이다. 3) 숫자는 [과정] 시트에서 작업한 결과를 가져온다. [과정] 시트에는이렇게까지 필요할까 싶을 정도로 ..
데이터 분석 - 피벗테이블 2 조건에 따라 분석 결과를 알아본다. 1. 배급사별로 관객수를 분석한 피벗 테이블을 만든다. 1) 배급사 텍스트에 따라 관객수가 집계된다. 배급사의 상위 카테고리는 같지만, 하위 분류에 따라 다른 목록으로 나타난다. 상위 카테고리 롯데에 여러 하위 카테고리가 존재한다. 2) 롯데가 포함된 배급사는 한번에 표시한다. 행 레이블 필터 단추에서 [레이블 필터] - [포함] 을 클릭한다. 3) 결과를 확인한다. 총합계는 필터링된 롯데를 포함한 배급사의 관객수의 합계이다. 2. 관객수가 많은 배급처 5개만 필터한다. 1) 행 레이블 필터 단추에서 [값 필터] - [상위 10]을 클릭한다. 2) 필터 결과를 확인한다. 3) 관객수가 많은 배급처가 맨 위로 올라오도록 순서대로 정렬한다. [관객수] 필드의 셀을 선택하고..
데이터 분석 - 피벗테이블 1 데이터를 분석할 때 피벗 테이블를 이용하면 아주 편리하다. 분석하기 위한 함수를 보다 다양하게 사용할 수 있고, 엑셀 버전 때문에 사용할 수 없던 계산도 가능하다. 요약 표의 구조도 동적으로 변화할 수 있다. 물론 분석 결과의 구조를 바꾸는 경우는 드물다. 하지만, 기타 등등에 대한 예비표를 만들지 않아도 피벗테이블에서 변형할 수 있다는 점은 아주 유용하다. 피벗테이블은 좀 더 다양한 조건으로 인사이트를 얻을 수 있다. 피벗 테이블은 대용량 데이터를 보다 빠르게 작업할 수 있다. 함수는 지정한 범위를 재계산하여 반영하므로 작업 효율이 떨어지게 된다. 피벗 테이블은 필요한 경우에만 원본과 연동하므로 훨씬 가볍고 빠른 결과를 볼 수 있다. 1. 피벗 테이블을 만들어 보자. 표를 선택하고 [삽입] 탭 [피벗 ..
데이터 분석 - 함수 3 data 표에서 순위 1 ~ 5에 해당하는 행을 가져오려고 한다. 이때 순위는 필터된 순위 결과인 값 1, 2,3, 4, 8 을 의미한다. 가져올 열은 영화명, 개봉일, 관객수 이다. 범위에서 특정 행과 열이 값을 찾아오는 함수 INDEX 를 사용한다. 1. 함수 알아보기 INDEX 함수는 (범위, 찾을 행의 위치, 찾을 열의 위치)를 인수로 갖는다. 행과 열의 위치는 숫자로 입력한다. 범위에 열이 하나인 경우, 찾을 열의 위치는 생략할 수 있다. 2. 순위가 1인 영화명 찾기 영화명 열만 가져오므로 인수는 2개만 필요하다. 행은 맨 위의 값을 가져온다. 나머지 순위는 채우기 핸들로 결과를 알아본다. 3. 개봉일의 1순위를 알아본다. 표의 개봉일만 가져오고, 행은 표의 순위와 같다. 4. 관객수를 순위대..
데이터 분석 - 함수 2 데이터 분석에서 전체적인 상황을 파악하는 작업이 끝나면 좀 더 세밀하게 부분적으로 분석해야 한다. 조건을 입력하고 그 조건에 맞는 행만 계산해 본다. 전체 상황에 대한 함수는 count, sum, average, max, min 을 사용한다면 조건을 입력한 세밀한 분석에 필요한 함수는 countifs, sumifs, averageifs, maxifs, minifs 이다. 이 중 averageifs, maxifs, minifs 함수는 엑셀 2019 이후 버전에서만 가능하다. 그 이전 버전은 averageifs를 대체할 때 averageif 함수는 사용한다. (조건은 1개) s의 유무 차이는 조건이 1개 이상인지 1개인지를 구분한다. maxif, minif 함수는 없다. 버전때문에 작업을 못 할수는 없다. ..
데이터 분석 - 함수 1 가져온 데이터로 함수를 이용하여 분석 한다. 앞의 포스트에서 파워 쿼리 또는 텍스트 마법사로 데이터를 가져온 경우 서로 시트와 표 이름이 다르므로 일관성있게 변경한다. 만약 2가지 모두 작업한 결과가 있다면 둘 중 하나를 사용하면 된다. 사용할 시트의 이름과 표이름을 모두 Data 로 한다. 한글과 영문을 동시에 사용하여 한영 변환하는 게 번거롭게 느껴져서 영문으로 할 예정이다. 함수 이름은 알고 있겠지만 영문으로 입력한다. (독일은 독일어로 되어 있던데... 한국은 영어로.) 원본인 Data 시트 옆에 분석 과정을 보여줄 시트를 삽입한다. 시트 이름은 [과정]이다. 워크 시트 2개를 이동하면서 작업하는 것은 힘드니까, 워크 시트 2개를 각각 창으로 만들어 사용한다. [보기] 탭 - [새 창]을 클릭한다..
MS - Excel 종류 엑셀 프로그램은 친숙하다. 잘 아는 것 같지만 조금 낯선.. 프로그램이지만, 경제활동을 위한 업무를 시작하면 필수가 된다. 포스트의 제목을 엑셀 종류라고 했지만, 버전을 의미하지는 않는다. 가장 많이 사용하는 버전은 MS 직원이 아니니 확인할 수는 없고, 현재의 최신 버전으로 글을 쓸 생각이다. (office 365 구독 중) 제목에 밝힌 엑셀의 종류는 엑셀 프로그램에 포함되지만, 뭔지 모를 이질감 또는 어려울 것 같은 두려움을 가지고 있는 엑셀의 기능을 확대 시킨 것을 말한다. 예전부터 계속 내장되어 있는 엑셀 VBA, 엑셀 2016부터 본격적으로 내장된 파워 쿼리, 파워 피벗이다. 엑셀, 엑셀 VBA, 파워 쿼리, 파워 피벗을 모두 엑셀로 묶어서 사용해야 한다. 왜? 같은 프로그램이니까. 어떤 점이 ..
추론 통계(Inferential statistics) 추론 통계는 표본을 이용하여 모집단의 특성을 추측하는 과정이에요. 표본 추출 -> 가설, 검정 -> 회귀, 예측 순으로 진행되어요. 1. 표본추출 데이터 집합인 모집단에서 얻은 데이터의 부분 집합을 표본(sample)이라고 해요. 표본을 추출하는 방법은 2가지가 있어요. 임의표본추출(임의표집, 랜덤표본추출, random sampling) : 무작위로 표본을 추출하는 것 복원추출(with replacement) : 추첨 후, 중복 추출이 가능하도록 모집단에 샘플을 다시 포함 시키는 방법 비복원추출(without replacement) : 한번 뽑힌 원소는 추첨하지 다음번 추첨에 사용하지 않는 방법 단점 : 모집단을 잘못 대표하는 표본 편향이 발생할 수 있어요. 층화표본추출(층화표집, stratified s..