> >
Post

[빅분기] 필기 Chapter 10. 분석결과 해석

[빅데이터분석기사] 필기 'Chapter 10. 분석결과 해석 및 활용' 내용을 정리했습니다.

[빅분기] 필기 Chapter 10. 분석결과 해석

들어가며

빅데이터분석기사 필기 시험을 준비하며 공부한 내용을 Chapter 별 핵심 내용 기준으로 정리한 내용입니다.
교재는 이기적-빅데이터분석기사 필기-2024로 공부했습니다.



01. 분석결과 해석


1. 비즈니스 기도 평가

데이터 분석은 비즈니스에 도입 활용함으로써 의사결정, 운영 프로세스의 효율화, 개선을 도출하게 되며 이에 대한 기여도 평가가 필요하다.

  • 빅데이터 분석 목적: 과거의 데이터를 토대로 미래를 분석하는 것
  • 분석 결과의 기여도 평가: 분석 결과의 기여도 평가는 ROI 또는 업무 효율성 향상에 대한 비율로 측정
  • ROI(투자수익률): 투자한 자본에 대한 수익/손실 비율이다.
\[ROI = \frac{\text{총체적인 금전적 이익 - 소요된 비용}}{\text{소요된 비용}} \times 100\]



2. 분석 모델별 시각화

2-1) 회귀 모델

  • 변수들 간에 관계 분석을 위해 히트맵과 산점도를 활용
  • 회귀 모델은 여러가지 변수들을 동시에 비교
  • 전체에서 식별이 되는 부분에 대한 수치, 정도를 비교 시각화 기법으로 표현

Reg-heatmap 단순선형회귀 히트맵 시각화 예시

Scatter 단순선형회귀 산점도 시각화 예시


2-2) 분류 모델

  • SVM: 산점도와 구분선을 통한 비교시각화 기법으로 활용 범위와 영역을 구분

SVM-plot SVM 시각화 예시


  • KNN: 비교시각화의 평행좌표계로써 변수들과의 연관성 및 그룹 데이터의 경향 파악

KNN-plot KNN 시각화 예시


  • 의사결정나무: 관계시각화 기법의 트리 다이어그램으로 시각화

tree 의사결정나무 시각화 예시


2-3) 군집분석 모델

  • 다수의 객체를 군집으로 나누는 군집분석은 그룹 클러스터별 단위로 산점도로 시각화

Cluster 군집분석 시각화 예시


2-4) 연관분석 모델

  • 연관규칙 별로 연관성 있는 항목끼리 묶여서 관계시각화 기법인 네트워크 그래프를 활용하여 시각화

network 연관분석 시각화 예시




02. 분석결과 시각화


분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정과 기법

1. 데이터 시각화 개요

1-1) 데이터 시각화 특성

  • 자료로부터 정보를 습득하는 시간을 절감하고 데이터에 대한 즉각적인 판단이 가능
  • 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 도움
  • 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서 표현이 가능
  • 그래픽 도구를 이용함으로써 데이터의 의미, 관계, 차이, 분포 등을 선명하게 표현


데이터 시각화 접근방법

접근방법정의
통계적 그래픽데이터 분포와 통계적 정보를 2차원 또는 3차원 공간에서 시각적으로 표현
주제 지도학특정 주제의 지리적 분포와 패턴을 나타내는 지도 형태의 표현하는 방법


1-2) 데이터 유형

  • 데이터에 특성에 따라 크게 범주형수치형으로 나눌 수 있다.
  • 범주형은 명목형과 순서형, 수치형은 이산형과 연속형으로 구별


데이터 유형

구분특징
범주형
명목형 데이터
- 특정 카테고리가 가질 수 있는 값의 집합을 의미한다.
- 순서를 매길 수 없지만 셀 수 있다.
- 예: 성별, 색깔, 취미, 혈액형 등.
범주형
순서형 데이터
- 특정 카테고리의 값들을 순서로 구분할 수 있는 데이터를 의미한다.
- 순서를 매길 수 있고 셀 수 있다.
- 예: 5점 척도, 학점 등.
수치형
이산형 데이터
- 셀 수 있는 형태의 값을 표현하는 자료로 주로 정수값으로 표현된다.
- 예: 학생 수, 불량품 수, 나이 등.
수치형
연속형 데이터
- 연속된 구간에서 값을 취하는 자료로 주로 측정되는 양을 표현하는 데 사용된다.
- 예: 시간, 온도, 무게, 길이 등.


1-3) 데이터 시각화 방법

  • 시간, 분포, 관계, 비교 및 공간을 중심으로 시각화 하는 방법이 주로 사용된다.


데이터 시각화 방법

시각화 방법주요 도구
시간 시각화막대그래프, 누적막대그래프, 점/선그래프
분포 시각화히스토그램, 파이차트, 도넛차트, 트리맵, 누적연속그래프
관계 시각화산점도, 버블차트, 히트맵
비교 시각화히트맵, 스타차트, 평행좌표계, 다차원척도법, 체르노프페이스
공간 시각화지도 매핑



2. 데이터 시각화 영역

데이터-시각화-영역

2-1) 정보 시각화

  • 정보시각화는 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법
  • 큰 범위의 집합에 대한 시각적 표현방법을 강조
  • 수치정보 뿐만 아니라 텍스트나 지형정보 같은 비수치 정보까지 포함
  • 데이터 시각화에서 한단계 더 정보 형태의 가공 과정을 거침
  • 카토그램, 분기도, 개념도, 계통도, 네트워크 다이어그램, 트리맵 등 다양한 도구를 사용

Tableau-treemap Tableau treemap 예시


2-2) 정보 디자인

  • 시각 디자인의 하위 영역으로 정보를 구성하여 효율적으로 사용할 수 있게 하는 디자인 기술 및 업무
  • 그래픽 디자인을 강조하는 용어로 사용됨
  • 데이터 시각화, 정보 시각화, 인포그래픽을 모두 포괄하는 개념

Information-design 예시


2-3) 인포그래픽(Infographic)

  • 복잡한 수치나 글로 표현되어 있는 정보와 지식을
  • 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용해 한눈에 파악할 수 있도록 표현
  • 설득형 메세지를 전달하기 위해 주로 사용
  • 스토리를 통해 정보를 전달하려는 경향이 강함
  • 인포그래픽은 일반인을 대상으로 특정 정보와 메세지를 전달하기에 적합


인포그래픽

기본 요소비주얼, 내용, 지식
유형통계기반, 타임라인 기반, 프로세스 기반, 지리기반 등
장점- 시각적인 즐거움
- 이해 쉬운 전달
- 오랜 기억 유지
- 자발적 확산



3. 시간 시각화

시간에 따른 데이터의 변화를 표현하는 것으로 일정기간에 걸쳐 진행되는 변화와 트랜드를 추적하는데 주로 사용

특징과 도구

유형특징 및 도구
이산형특정 시점의 값을 표현
→ 막대그래프, 점그래프 등
연속형구간의 변화하는 값을 표현
→ 꺾은선 그래프, 계단 그래프, 추세선 등


3-1) 막대그래프

  • 상대적인 차이를 한눈에 알아보도록 표현
  • 시간축(x축)은 주로 시간 순서대로 정렬
  • 값축(y축)은 그래프의 크기를 나타냄
  • 데이터 값은 막대의 길이에만 영향을 미치며, 막대의 폭이나 간격과는 무관

barplot Barplot 예시


3-2) 누적막대그래프

  • 두 개 이상의 변수를 동시에 다루는 경우 막대의 영역을 구분하여 나머지 변수의 값을 표현
  • 하나의 막대를 구성하는 세부항목 각각의 값과 전체의 합을 함께 표현할 때 유용

누적막대그래프 누적막대그래프 예시


3-3) 꺾은선그래프(연속 시계열그래프)

  • 점그래프에서 점과 점사이를 선으로 연결한 그래프
  • 데이터의 연속된 특성을 표현
  • 경향선을 뚜렷하게 보여주기 위해 주로 사용
  • 경우에 따라 그래프에서 점을 표시하지 않을 수도 있다.

lineplot lineplot 예시


3-4) 계단 그래프

  • 점과 점 사이를 직접 연결하는 것이 아님
  • 변화가 생길 때까지 일정한 선을 유지하다가 다음 값으로 바뀌는 지점에서 급격하게 변화하는 것
  • 특정 시점에서 변화를 표현하는 데에는 계단그래프가 유리
  • 연도별 법인세율, 변화, 연도별 최저임금 변화 등에 사용

계단그래프 계단그래프 예시


3-5) 추세선

  • 즉각적인 변화보다는 변화하는 경향성을 보여주는 직선 또는 곡선
  • 다양한 함수를 적용해서 구할 수 있으며, 지수형, 로그형, 선형, 이동평균형 등이 있다.

추세선 추세선 예시



4. 분포 시각화

데이터의 분포를 시각적으로 표현하는 기법을 말하며
특정 변수의 값들이 어떻게 분포되어 있는지 파악하기 위해 사용

4-1) 히스토그램

  • 막대그래프의 일종으로 세로축은 데이터의 분포 정도를 표현
  • 가로축은 특정 변수의 구간 폭을 의미
  • 데이터셋 안에서 어떻게 분포되어 있는지를 파악해야 하는 경우 도수분포를 주로 사용
  • 도수분포표: 데이터 값의 다양한 산출 분포를 보여주는 목록이나 표

histplot histplot 예시


누적히스토그램

  • 각 구간의 값을 누적하여 표현
  • 데이터의 출현 빈도를 오른쪽으로 누적하면서 표시하며, 마지막 막대는 전체 데이터의 총 수를 나타냄

누적히스토그램 예시


4-2) 원그래프(Pie Chart)

  • 하나의 원을 구성하는 데이터 비율에 따라 조각으로 나누어 분포를 표현
  • 요소의 비율을 한눈에 보여주지만, 막대그래프와 같이 데이터의 값을 정확하게 표현하기 어렵다는 단점이 있다.
  • 여러 분류에 대한 값을 표현하게 위해서는 각각의 차트가 필요

pie-chart Pie-Chart 예시


4-3) 트리맵(Tree Map)

  • 전체 데이터를 표현하는 하나의 사각형 영역에서 세부 사각형들의 크기로 분포를 시각화하여 표현
  • 계층형/트리 구조를 가진 데이터를 표현하는데 유용

Tree-Map Tree-Ma 예시


4-4) 누적연속그래프(누적영역차트)

  • 시간 변화에 따른 값의 변화를 선그래프의 영역으로 표현
  • 누적막대그래프와 유사하지만, 시간에 따라 변화하는 값의 흐름을 더 잘 보여준다.
  • 세로 영역의 한 단면만 보여주면 그 시점에 분포를 볼 수 있다.

누적연속그래프 누적연속그래프 예시



5. 관계 시각화

데이터 사이의 관계를 시각적으로 표현하는 것을 말한다. 데이터셋에 변수가 2개 이상이 있을 때, 이 변수들의 상관관계를 표현

5-1) 산점도(Scatter Plot)

  • 두 변수의 값을 2차원 또는 3차원 좌표계를 활용
  • 점으로 표시한 것으로 점들의 집합이 모여서 두 변수 사이의 관계를 표현
  • 양의 상관관계: 점이 오른쪽 위로 올라가는 추세
  • 음의 상관관계: 점이 오른쪽 아래로 떨어지는 추세
  • 직선관계, 지수관계, 로그관계 등 다양한 상관관계 함수로 유추될 수 있는 관계

pearson-corr Scatter Plot 예시


5-2) 버블차트(Bubble Chart)

  • 한번에 3개의 변수를 비교해볼 수 있다.
  • 반지름이나 지름으로 표현되면 실제 값보다 너무 크게 원이 그려질 수 있어 주의해야 한다.
  • 도시별 인구밀집도, 도시별 우유 판매량 등 국가나 지역에 따른 값의 분포를 표현하는데 매우 유리

Bubble-Chart Bubble-Chart 예시


5-3) 히트맵(Heat Map)

  • 분포와 관계에 대한 정보를 색으로 표현한 그래프
  • 각각의 칸마다 색으로 수치의 정도를 표현

Heat-Map Heat-Map 예시



6. 비교 시각화

하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현하는 방법

6-1) 체르노프 페이스(Chernoff Faces)

  • 데이터 표현에 따라 달라지는 차이를 얼굴 모양으로 나타내는 방법
  • 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법
  • 체르노프 페이스에서 얼굴을 표현할 때 사용되는 요소는 다음과 같다.
  1. 얼굴형: 얼굴길이, 얼굴너비, 얼굴윤곽
  2. 입: 입의 높이, 입의 너비, 입모양
  3. 눈: 눈의 높이, 눈의 너비
  4. 머리카락: 머리카락 높이, 머리카락 너비, 머리카락 모양
  5. 코: 코의 높이, 코의 너비
  6. 귀: 귀의 높이

Chernoff-Faces Chernoff-Faces 예시


6-2) 스타차트(Star Chart)

  • 별모양 또는 거미줄 모양으로 표현하는 그래프
  • 하나의 변수마다 축이 시작되는 시작점은 최소값을, 가장 먼 끝점은 최대값을 나타낸다.
  • 여러 속성을 한 번에 표현할 수 있다.

Star-Chart Star-Chart 예시


6-3) 평행좌표계(Parallel Coordinates)

  • 체르노프페이스는 한 대상의 특징을 명확하게 보여주지만 여러 대상을 한번에 보여주기는 힘듬
  • 평행좌표계스타차트의 여러 축을 평행으로 배치
  • 축의 윗부분을 최대값, 아래부분을 최소값으로 하여 값들을 선으로 연결해서 표현
  • 하나의 대상이 변수 값에 따라 위아래로 이어지는 연결선으로 그려지는 특징이 있다.

평행좌표계 평행좌표계 예시


6-4) 다차원척도법(MDS)

  • 객체 간 근접성을 시각화하는 통계기법으로 모든 변수를 비교해서 비슷한 대상을 그래프 상에 가깝게 배치
  • 유사성이 높은 데이터들은 서로 가까운 곳에 위치시키고, 유사성이 낮은 데이터들은 서로 먼 곳에 위치시킨다.
  • 다차원척도법은 대상 간 유사성 측정척도에 따라 다음의 두 종류로 나눌 수 있다.
    1. 계량형 다차원척도법
      • 대상 간 실제 측정거리 값이나 유클리드 거리로 나타낸다.
    2. 비계량형 다차원척도법
      • 대상 간 측정거리 값이나 유클리드 거리의 절대적인 크기는 무시
      • 크기 순서 등의 순위에 관한 정보만을 이용하여 나타낸다.

MDS MDS 예시



7. 공간 시각화

장소나 지역에 따른 데이터의 분포를 표현하는 것을 공간 시각화라고 하며, 실제 지도나 지도모양의 다이어그램을 배경으로 데이터의 위치를 시각화한다.

  • 공간시각화는 지형코드화 과정과 매핑과정을 거친다.
  • 지형코드화
    • 래스터 이미지를 고쳐 실세계 지도 투영이나 좌표계에 일치시키는 처리과정
    • 위도와 경도를 활용하여 지도상의 위치를 표현
  • 매핑
    • 좌표값을 가진 데이터를 다양한 방법으로 지도에 표시


7-1) 단계구분도(Choropleth Map)

  • 여러 지역에 걸친 정량 정보를 나타낼 때, 데이터가 분포된 지역별로 색을 다르게 칠한 지도
  • 색으로 밀도를 표현할 때 가장 효과적
  • 밀도가 높은 영역을 진하게 표현하고 낮은 영역을 연하게 표현

단계구분도 단계구분도 예시


7-2) 카토그램(Cartogram)

  • 변화에 따라 지도의 면적을 인위적으로 왜곡하여 값에 대한 직관적인 이해가 가능하도록 한 다이어그램
  • 면적이 넓은 지역의 값이 전체를 지배하는 것처럼 보이는 시각적 왜곡이 발생할 수 있다.

Cartogram Cartogram 예시




03. 분석결과 활용


1. 분석모형 전개

1-1) 빅데이터 분석 방법론 참조모델

  • 데이터 분석 프로젝트를 위해 표준적으로 적용할 수 있는 프로세스를 5단계로 정리해서 보여준다.
  • 순서는 다음과 같다.
  1. 분석기획
  2. 데이터 준비
  3. 데이터 분석
  4. 시스템 구현
  5. 평가 및 전개


1-2) CRISP-DM

  • 1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론
  • 총 6단계로 구성되며 빅데이터 프로젝트에서 보편적으로 쓰인다.
  • 순서는 다음과 같다.
  1. 비즈니스 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개


1-3) SEMMA

  • SAS사의 주도로 통계적 분석에 중심을 두고 있는 방법론으로
  • 순서는 다음과 같다.
  1. 샘플링
  2. 탐색
  3. 전처리
  4. 모델링
  5. 평가


1-4) KDD

  • 데이터마이닝 프로세스로, 주로 데이터베이스 중심 시스템을 대상으로 적용
  • 순서는 다음과 같다.
  1. 데이터 추출
  2. 전처리
  3. 변환
  4. 데이터 마이닝
  5. 해석/평가



2. 분석결과 활용 계획 수립

2-1) 분석결과 적용과 보고서 작성

  • 전개 단계 : 개발된 모델을 적용하여 결과를 확인하고 계속적인 관리를 위한 방법을 제시


항목설명
분석결과 활용 계획 수립- 빅데이터 분석 결과를 어떻게 업무에 반영할 것인지에 대한 액션 플랜을 만듬
- 업무 성과를 지속적으로 모니터링할 수 있는 방안 수립
분석결과 적용과 보고서 작성- 분석 모델과 결과를 업무 현장에 적용하고 업무 데이터베이스 시스템 일부로 표현
- 성과 측정 지표에 따라 분석 성과 측정, 개선 계획 수립
분석모형 모니터링- 이전에 수립한 활용방안이 잘 수행되고 있는지 확인
- 주변 환경과 데이터의 변화로 빅데이터 분석 모델이 지속적으로 반영하기 위함
분석모형 리모델링- 분석 모델이 변천된 업무와 데이터에 지속적으로 수용할 수 있도록 함
- 데이터 품질 검토, 알고리즘 개선, 매개변수 최적화 등 과정 진행


2-2) 분석모형 모니터링

분석 모니터링 필요성

  • 주변 환경과 데이터의 변화를 빅데이터 분석 모델에 지속적으로 반영하기 위해
  • 분석 모형을 지속적으로 모니터링하고 리모델링 해야한다.


분석 모니터링 주요 대상

  • 서비스: 분석과제 발굴, 활용방안 마련, 성과관리 등
  • 분석모델: 분석 알고리즘 주기, 변수, 소스 등
  • 데이터: 현 시점의 현행화 데이터 확인
This post is licensed under CC BY 4.0 by the author.