[빅분기] 필기 Chapter 10. 분석결과 해석
[빅데이터분석기사] 필기 'Chapter 10. 분석결과 해석 및 활용' 내용을 정리했습니다.
[빅분기] 필기 Chapter 10. 분석결과 해석
들어가며
빅데이터분석기사 필기 시험을 준비하며 공부한 내용을 Chapter 별 핵심 내용 기준으로 정리한 내용입니다.
교재는 이기적-빅데이터분석기사 필기-2024로 공부했습니다.
01. 분석결과 해석
1. 비즈니스 기도 평가
데이터 분석은 비즈니스에 도입 활용함으로써 의사결정, 운영 프로세스의 효율화, 개선을 도출하게 되며 이에 대한 기여도 평가가 필요하다.
- 빅데이터 분석 목적: 과거의 데이터를 토대로 미래를 분석하는 것
- 분석 결과의 기여도 평가: 분석 결과의 기여도 평가는 ROI 또는 업무 효율성 향상에 대한 비율로 측정
- ROI(투자수익률): 투자한 자본에 대한 수익/손실 비율이다.
2. 분석 모델별 시각화
2-1) 회귀 모델
- 변수들 간에 관계 분석을 위해 히트맵과 산점도를 활용
- 회귀 모델은 여러가지 변수들을 동시에 비교
- 전체에서 식별이 되는 부분에 대한 수치, 정도를 비교 시각화 기법으로 표현
2-2) 분류 모델
- SVM: 산점도와 구분선을 통한 비교시각화 기법으로 활용 범위와 영역을 구분
- KNN: 비교시각화의 평행좌표계로써 변수들과의 연관성 및 그룹 데이터의 경향 파악
- 의사결정나무: 관계시각화 기법의 트리 다이어그램으로 시각화
2-3) 군집분석 모델
- 다수의 객체를 군집으로 나누는 군집분석은 그룹 클러스터별 단위로 산점도로 시각화
2-4) 연관분석 모델
- 각 연관규칙 별로 연관성 있는 항목끼리 묶여서 관계시각화 기법인 네트워크 그래프를 활용하여 시각화
02. 분석결과 시각화
분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법
1. 데이터 시각화 개요
1-1) 데이터 시각화 특성
- 자료로부터 정보를 습득하는 시간을 절감하고 데이터에 대한 즉각적인 판단이 가능
- 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 도움
- 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서 표현이 가능
- 그래픽 도구를 이용함으로써 데이터의 의미, 관계, 차이, 분포 등을 선명하게 표현
데이터 시각화 접근방법
접근방법 | 정의 |
---|---|
통계적 그래픽 | 데이터 분포와 통계적 정보를 2차원 또는 3차원 공간에서 시각적으로 표현 |
주제 지도학 | 특정 주제의 지리적 분포와 패턴을 나타내는 지도 형태의 표현하는 방법 |
1-2) 데이터 유형
- 데이터에 특성에 따라 크게 범주형과 수치형으로 나눌 수 있다.
- 범주형은 명목형과 순서형, 수치형은 이산형과 연속형으로 구별
데이터 유형
구분 | 특징 |
---|---|
범주형 명목형 데이터 | - 특정 카테고리가 가질 수 있는 값의 집합을 의미한다. - 순서를 매길 수 없지만 셀 수 있다. - 예: 성별, 색깔, 취미, 혈액형 등. |
범주형 순서형 데이터 | - 특정 카테고리의 값들을 순서로 구분할 수 있는 데이터를 의미한다. - 순서를 매길 수 있고 셀 수 있다. - 예: 5점 척도, 학점 등. |
수치형 이산형 데이터 | - 셀 수 있는 형태의 값을 표현하는 자료로 주로 정수값으로 표현된다. - 예: 학생 수, 불량품 수, 나이 등. |
수치형 연속형 데이터 | - 연속된 구간에서 값을 취하는 자료로 주로 측정되는 양을 표현하는 데 사용된다. - 예: 시간, 온도, 무게, 길이 등. |
1-3) 데이터 시각화 방법
- 시간, 분포, 관계, 비교 및 공간을 중심으로 시각화 하는 방법이 주로 사용된다.
데이터 시각화 방법
시각화 방법 | 주요 도구 |
---|---|
시간 시각화 | 막대그래프, 누적막대그래프, 점/선그래프 |
분포 시각화 | 히스토그램, 파이차트, 도넛차트, 트리맵, 누적연속그래프 |
관계 시각화 | 산점도, 버블차트, 히트맵 |
비교 시각화 | 히트맵, 스타차트, 평행좌표계, 다차원척도법, 체르노프페이스 |
공간 시각화 | 지도 매핑 |
2. 데이터 시각화 영역
2-1) 정보 시각화
- 정보시각화는 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법
- 큰 범위의 집합에 대한 시각적 표현방법을 강조
- 수치정보 뿐만 아니라 텍스트나 지형정보 같은 비수치 정보까지 포함
- 데이터 시각화에서 한단계 더 정보 형태의 가공 과정을 거침
- 카토그램, 분기도, 개념도, 계통도, 네트워크 다이어그램, 트리맵 등 다양한 도구를 사용
2-2) 정보 디자인
- 시각 디자인의 하위 영역으로 정보를 구성하여 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무
- 그래픽 디자인을 강조하는 용어로 사용됨
- 데이터 시각화, 정보 시각화, 인포그래픽을 모두 포괄하는 개념
2-3) 인포그래픽(Infographic)
- 복잡한 수치나 글로 표현되어 있는 정보와 지식을
- 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용해 한눈에 파악할 수 있도록 표현
- 설득형 메세지를 전달하기 위해 주로 사용
- 스토리를 통해 정보를 전달하려는 경향이 강함
- 인포그래픽은 일반인을 대상으로 특정 정보와 메세지를 전달하기에 적합
인포그래픽
기본 요소 | 비주얼, 내용, 지식 |
유형 | 통계기반, 타임라인 기반, 프로세스 기반, 지리기반 등 |
장점 | - 시각적인 즐거움 - 이해 쉬운 전달 - 오랜 기억 유지 - 자발적 확산 |
3. 시간 시각화
시간에 따른 데이터의 변화를 표현하는 것으로 일정기간에 걸쳐 진행되는 변화와 트랜드를 추적하는데 주로 사용
특징과 도구
유형 | 특징 및 도구 |
---|---|
이산형 | 특정 시점의 값을 표현 → 막대그래프, 점그래프 등 |
연속형 | 구간의 변화하는 값을 표현 → 꺾은선 그래프, 계단 그래프, 추세선 등 |
3-1) 막대그래프
- 상대적인 차이를 한눈에 알아보도록 표현
- 시간축(x축)은 주로 시간 순서대로 정렬
- 값축(y축)은 그래프의 크기를 나타냄
- 데이터 값은 막대의 길이에만 영향을 미치며, 막대의 폭이나 간격과는 무관
3-2) 누적막대그래프
- 두 개 이상의 변수를 동시에 다루는 경우 막대의 영역을 구분하여 나머지 변수의 값을 표현
- 하나의 막대를 구성하는 세부항목 각각의 값과 전체의 합을 함께 표현할 때 유용
3-3) 꺾은선그래프(연속 시계열그래프)
- 점그래프에서 점과 점사이를 선으로 연결한 그래프
- 데이터의 연속된 특성을 표현
- 경향선을 뚜렷하게 보여주기 위해 주로 사용
- 경우에 따라 그래프에서 점을 표시하지 않을 수도 있다.
3-4) 계단 그래프
- 점과 점 사이를 직접 연결하는 것이 아님
- 변화가 생길 때까지 일정한 선을 유지하다가 다음 값으로 바뀌는 지점에서 급격하게 변화하는 것
- 특정 시점에서 변화를 표현하는 데에는 계단그래프가 유리
- 연도별 법인세율, 변화, 연도별 최저임금 변화 등에 사용
3-5) 추세선
- 즉각적인 변화보다는 변화하는 경향성을 보여주는 직선 또는 곡선
- 다양한 함수를 적용해서 구할 수 있으며, 지수형, 로그형, 선형, 이동평균형 등이 있다.
4. 분포 시각화
데이터의 분포를 시각적으로 표현하는 기법을 말하며
특정 변수의 값들이 어떻게 분포되어 있는지 파악하기 위해 사용
4-1) 히스토그램
- 막대그래프의 일종으로 세로축은 데이터의 분포 정도를 표현
- 가로축은 특정 변수의 구간 폭을 의미
- 데이터셋 안에서 어떻게 분포되어 있는지를 파악해야 하는 경우 도수분포를 주로 사용
- 도수분포표: 데이터 값의 다양한 산출 분포를 보여주는 목록이나 표
누적히스토그램
- 각 구간의 값을 누적하여 표현
- 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시하며, 마지막 막대는 전체 데이터의 총 수를 나타냄
4-2) 원그래프(Pie Chart)
- 하나의 원을 구성하는 데이터 비율에 따라 조각으로 나누어 분포를 표현
- 요소의 비율을 한눈에 보여주지만, 막대그래프와 같이 데이터의 값을 정확하게 표현하기 어렵다는 단점이 있다.
- 여러 분류에 대한 값을 표현하게 위해서는 각각의 차트가 필요
4-3) 트리맵(Tree Map)
- 전체 데이터를 표현하는 하나의 사각형 영역에서 세부 사각형들의 크기로 분포를 시각화하여 표현
- 계층형/트리 구조를 가진 데이터를 표현하는데 유용
4-4) 누적연속그래프(누적영역차트)
- 시간 변화에 따른 값의 변화를 선그래프의 영역으로 표현
- 누적막대그래프와 유사하지만, 시간에 따라 변화하는 값의 흐름을 더 잘 보여준다.
- 세로 영역의 한 단면만 보여주면 그 시점에 분포를 볼 수 있다.
5. 관계 시각화
데이터 사이의 관계를 시각적으로 표현하는 것을 말한다. 데이터셋에 변수가 2개 이상이 있을 때, 이 변수들의 상관관계를 표현
5-1) 산점도(Scatter Plot)
- 두 변수의 값을 2차원 또는 3차원 좌표계를 활용
- 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현
- 양의 상관관계: 점이 오른쪽 위로 올라가는 추세
- 음의 상관관계: 점이 오른쪽 아래로 떨어지는 추세
- 직선관계, 지수관계, 로그관계 등 다양한 상관관계 함수로 유추될 수 있는 관계
5-2) 버블차트(Bubble Chart)
- 한번에 3개의 변수를 비교해볼 수 있다.
- 반지름이나 지름으로 표현되면 실제 값보다 너무 크게 원이 그려질 수 있어 주의해야 한다.
- 도시별 인구밀집도, 도시별 우유 판매량 등 국가나 지역에 따른 값의 분포를 표현하는데 매우 유리
5-3) 히트맵(Heat Map)
- 분포와 관계에 대한 정보를 색으로 표현한 그래프
- 각각의 칸마다 색으로 수치의 정도를 표현
6. 비교 시각화
하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법
6-1) 체르노프 페이스(Chernoff Faces)
- 데이터 표현에 따라 달라지는 차이를 얼굴 모양으로 나타내는 방법
- 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법
- 체르노프 페이스에서 얼굴을 표현할 때 사용되는 요소는 다음과 같다.
- 얼굴형: 얼굴길이, 얼굴너비, 얼굴윤곽
- 입: 입의 높이, 입의 너비, 입모양
- 눈: 눈의 높이, 눈의 너비
- 머리카락: 머리카락 높이, 머리카락 너비, 머리카락 모양
- 코: 코의 높이, 코의 너비
- 귀: 귀의 높이
6-2) 스타차트(Star Chart)
- 별모양 또는 거미줄 모양으로 표현하는 그래프
- 하나의 변수마다 축이 시작되는 시작점은 최소값을, 가장 먼 끝점은 최대값을 나타낸다.
- 여러 속성을 한 번에 표현할 수 있다.
6-3) 평행좌표계(Parallel Coordinates)
- 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만 여러 대상을 한번에 보여주기는 힘듬
- 평행좌표계는 스타차트의 여러 축을 평행으로 배치
- 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해서 표현
- 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려지는 특징이 있다.
6-4) 다차원척도법(MDS)
- 객체 간 근접성을 시각화하는 통계기법으로 모든 변수를 비교해서 비슷한 대상을 그래프 상에 가깝게 배치
- 유사성이 높은 데이터들은 서로 가까운 곳에 위치시키고, 유사성이 낮은 데이터들은 서로 먼 곳에 위치시킨다.
- 다차원척도법은 대상 간 유사성 측정척도에 따라 다음의 두 종류로 나눌 수 있다.
- 계량형 다차원척도법
- 대상 간 실제 측정거리 값이나 유클리드 거리로 나타낸다.
- 비계량형 다차원척도법
- 대상 간 측정거리 값이나 유클리드 거리의 절대적인 크기는 무시
- 크기 순서 등의 순위에 관한 정보만을 이용하여 나타낸다.
- 계량형 다차원척도법
7. 공간 시각화
장소나 지역에 따른 데이터의 분포를 표현하는 것을 공간 시각화라고 하며, 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화한다.
- 공간시각화는 지형코드화 과정과 매핑과정을 거친다.
- 지형코드화
- 래스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 처리과정
- 위도와 경도를 활용하여 지도상의 위치를 표현
- 매핑
- 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시
7-1) 단계구분도(Choropleth Map)
- 여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도
- 색으로 밀도를 표현할 때 가장 효과적
- 밀도가 높은 영역을 진하게 표현하고 낮은 영역을 연하게 표현
7-2) 카토그램(Cartogram)
- 변화에 따라 지도의 면적을 인위적으로 왜곡하여 값에 대한 직관적인 이해가 가능하도록 한 다이어그램
- 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생할 수 있다.
03. 분석결과 활용
1. 분석모형 전개
1-1) 빅데이터 분석 방법론 참조모델
- 데이터 분석 프로젝트를 위해 표준적으로 적용할 수 있는 프로세스를 5단계로 정리해서 보여준다.
- 순서는 다음과 같다.
- 분석기획
- 데이터 준비
- 데이터 분석
- 시스템 구현
- 평가 및 전개
1-2) CRISP-DM
- 1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론
- 총 6단계로 구성되며 빅데이터 프로젝트에서 보편적으로 쓰인다.
- 순서는 다음과 같다.
- 비즈니스 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
1-3) SEMMA
- SAS사의 주도로 통계적 분석에 중심을 두고 있는 방법론으로
- 순서는 다음과 같다.
- 샘플링
- 탐색
- 전처리
- 모델링
- 평가
1-4) KDD
- 데이터마이닝 프로세스로, 주로 데이터베이스 중심 시스템을 대상으로 적용
- 순서는 다음과 같다.
- 데이터 추출
- 전처리
- 변환
- 데이터 마이닝
- 해석/평가
2. 분석결과 활용 계획 수립
2-1) 분석결과 적용과 보고서 작성
- 전개 단계 : 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시
항목 | 설명 |
---|---|
분석결과 활용 계획 수립 | - 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜을 만듬 - 업무 성과를 지속적으로 모니터링할 수 있는 방안 수립 |
분석결과 적용과 보고서 작성 | - 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로 표현 - 성과 측정 지표에 따라 분석 성과 측정, 개선 계획 수립 |
분석모형 모니터링 | - 이전에 수립한 활용방안이 잘 수행되고 있는지 확인 - 주변 환경과 데이터의 변화로 빅데이터 분석 모델이 지속적으로 반영하기 위함 |
분석모형 리모델링 | - 분석 모델이 변천된 업무와 데이터에 지속적으로 수용할 수 있도록 함 - 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등 과정 진행 |
2-2) 분석모형 모니터링
분석 모니터링 필요성
- 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위해
- 분석 모형을 지속적으로 모니터링하고 리모델링 해야한다.
분석 모니터링 주요 대상
- 서비스: 분석과제 발굴, 활용방안 마련, 성과관리 등
- 분석모델: 분석 알고리즘 주기, 변수, 소스 등
- 데이터: 현 시점의 현행화 데이터 확인
This post is licensed under CC BY 4.0 by the author.