> >
Post

[빅분기] 필기 Chapter 07. 분석 모형 설계

[빅데이터분석기사] 필기 'Chapter 07. 분석 모형 설계' 내용을 정리했습니다.

[빅분기] 필기 Chapter 07. 분석 모형 설계

들어가며

빅데이터분석기사 필기 시험을 준비하며 공부한 내용을 Chapter 별 핵심 내용 기준으로 정리한 내용입니다.
교재는 이기적-빅데이터분석기사 필기-2024로 공부했습니다.



01. 분석 절차 수립


1. 분석 모형 정의

분석 기법 또는 분석 알고리즘을 적용하기 전에 분석 모형에 대한 선정이 필요

1-1) 분석 모형 정의와 분류

분석 모형은 분석 목표에 따라 데이터 특성을 도출하고, 가설 수립에 따라 전체적인 분석 방향을 정의하는 모형으로
예측, 진단, 최적화 모형 등으로 구분


1. 예측 분석 모형

  • 어떤 일들이 발생할 것인가?
  • 적조, 예측, 주가, 범죄/위험 등 예측
  • 과거, 현재까지의 데이터와 상황에 따른 가설을 기반하여 미래에 대한 현상을 사전에 분류하고 예측

2. 현황 분석 모형

  • 과거에 어떠한 상황이 왜 어떻게 일어났는가? / 현재 어떠한 상태인가?
  • 과거 데이터를 통해 현재 상황을 객관적으로 진단하는 모형
  • 미래 예측이 아닌 현재를 이해함에 활용

3. 최적화 분석 모형

  • 어떻게 하면 원하는 결과가 일어날 수 있을까?
  • 제한된 자원, 환경 내에서 최대의 효용성, 이익과 같은 결과를 생성하기 위해
  • 최적화하는 데에 중점을 둔다.


1-2) 분석 모형 정의를 위한 사전 고려사항

분석 모형을 정의하기 전에 분석이 실제 추진될 수 있을지 가능성을 타진하는 것이 중요

기준판단 근거
필요성개인이나 기관 관점에서 분석 과제가 필요한지 판단
파급효과정성적, 정량적 기대효과의 정도 판단
추진 시급성당장 해소되어야 할 사회현안 여부 판단, 장기과제 성격 분리
구현 가능성과제를 구현함에 있어서 어려움이 없는지 현실성 판단
데이터 수집 가능성공공기관 협조나 데이터 확보, 데이터 구매 등 제약사항 판단
모델 확장성과제가 시범과제로 끝나지 않고 전체 데이터 모델로 확장 가능한지 판단



2. 분석 모형 구축 절차

2-1) 분석 모형 설계

1. 분석 모형 설계 시 사전 확인 사항

  • 필요한 데이터 항목이 정해졌는가?
  • 표준화 방법을 정하였는가?
  • 단계별로 모델이 설계되었는가?
  • 분석 검증 통계 기법을 선정하였는가?

2. 분석 모델링 설계와 검정

  • 분석 목적에 기반한 가설검정 방법을 수림
  • 추정방법에 대한 기술을 검토
  • 분석 모델링 설계와 검정 방법을 수립

3. 분석 모델링에 적합한 알고리즘 설계

  • 비지도학습: 군집분석, 연관성 분석, 오토인코더 등
  • 지도학습: 의사결정트리, 랜덤포레스트, SVD, 회귀분석 등
  • 준지도학습: 셀프 트레이닝, 적대적 생성 모델 등
  • 강화학습: Q-Learning, 정챙경사 등

4. 분석 모형 개발 및 테스트

  • 모듈 기능을 정의
  • 모듈 설계
  • 모듈 개발 결과물과 모델 설계 일치를 확인


2-2) 분석 모델링 설계와 검정

가설검정은 다음과 같은 총 5단계의 절차를 거치게 된다.

  1. 귀무가설과 대립가설 설정
    • 영가설이라고도 하며 대립가설에 상반되는 가설로서 기각되는 것이 예상되어 세워진 가설
  2. 검정통계량의 설정
    • 가설을 검정하기 위한 기준으로 사용하는 값
    • 확률분포 상에 어디에 위치하는지에 따라 귀무가설을 기각하거나 기각하지 않는다.
  3. 기각역의 설정
    • 기각역은 확률분포에서 귀무가설을 기각하는 영역을 말함
    • 기각역에 검정통계량이 위치하면 귀무가설을 기각
  4. 검정통계량 계산
    • 검정통계량의 계산식은 다음과 같다.
    \[\text{검정통계량} = \frac{\text{표본 평균} - \text{모평균}}{\text{표본 표준오차}}\]
    • 신뢰수준: 가설을 검정할 때 어느 정도로 검정할 것인지에 대한 수준
    • 유의수준: 가설을 검정할 때 일정 수준을 벗어나면 귀무가설이 오류라고 판단
  5. 통계적인 의사결정 (가설검정)
    • 가설검정에서의 검정 방법은 양측검정단측검정 두 가지가 있다.

    • 양측검정
      • 귀무가설을 기각하는 영역이 양쪽에 있는 검정을 말함
      • 대립가설이 ~가 아니다 (크거나 작다) 라면 양측검정을 사용
    • 단측검정
      • 귀무가설을 기각하는 영역이 한쪽 끝에 있는 검정을 말함
      • 대립가설이 ~보다 작다 혹은 크다인 경우 단측검정을 사용




02. 분석 환경 구축

1. 분석 도구 선정

1-1) R

R통계분석과 자료의 시각화를 위해 개발한 오픈소스 분석용 프로그래밍 언어로 다음과 같은 특징이 있다.

  1. 객체지향 언어
    • 데이터, 함수, 차트 등 모든 데이터가 객체 형태로 관리되어 효율적인 조작과 저장 방법을 제공
  2. 고속 메모리 처리
    • 모든 객체는 메모리로 로딩되어 고속으로 처리되고 재사용 가능
  3. 다양한 자료 구조
    • 벡터, 배열, 행렬, 데이터프레임, 리스트 등 다양한 자료구조와 연산 기능을 제공
  4. 최신 패키지 제공
    • 최신의 알고리즘과 방법론 제공
  5. 시각화
    • 데이터 분석과 표현을 위한 다양한 그래픽 도구를 제공


R의 장,단점

장점- 지속적으로 업데이트되는 다양한 패키지
- 그래프 및 도표, 시각화 기능에 특화
단점- 대용량 메모리 처리가 어려우며 보안 기능이 취약
- 별도의 모듈 연동이 아니면 웹 브라우저에서 사용 불가


1-2) Python

귀도 반 로섬이 발표한 오픈소스 분석용 프로그래밍 언어로, 인터프리터식, 객체지향적 대화형 언어

  1. 배우기 쉬운 대화 기능
    • 간결하고 쉬운 문법으로 컴파일, 실행, 테스트가 용이
  2. 동적인 데이터타입 결정 지원
    • 동적으로 데이터타입을 결정하므로 데이터타입에 무관하게 코드 작성이 가능
  3. 독립적 언어
    • 운영체제에 독립적으로 컴파일 없이 동작 실행
  4. 자료형과 자동 메모리 관리
    • list, tuple 등 유연한 내장 객체 자료형을 지원
    • 메모리 자동 할당 후 종료 시 자동 해지하는 메모리 청소 기능을 제공


Python의 장,단점

장점- 영어 문장 형식으로 구현된 빠른 개발 속도
- 재사용 가능한 모듈 제공
- C언어를 포함한 다른 언어 프로그램들과 연동성 높음
단점- 컴파일 없이 인터프리터가 한 줄 씩 실행하는 방식으로 실행속도 느림



2. 데이터 분할

2-1) 데이터 분할 정의

분석용 데이터로 모형을 구축하여 평가 및 검증하기 위해서 전체 데이터를 학습 데이터, 평가 데이터, 검증 데이터로 분할

  1. Train Data
    • 데이터를 학습하여 분석 모형을 만드는 데에 사용하는 데이터
  2. Validation Data
    • 모델이 과대/과소적합인지 성능을 평가하는 데이터
  3. Test Data
    • 최종적으로 일반화된 분석 모형을 검증하는 테스트를 위한 데이터


  • 보통 7:3 또는 8:2 비율로 분리
  • 전체적인 학습, 평가, 검증 비율은 일반적으로 4:3:3, 5:3:2로 정한다.


2-2) 과대적합/과소적합

  1. 과적합(Overfitting)
    • 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터새로운 데이터에 대해서는 예측을 잘 하지 못하는 것을 과적합, 과대적합이라고 한다.
    • 과적합 방지를 위해 K-fold 교차검증, 정규화 등의 방법이 있다.
  2. 과소적합(Underfitting)
    • 모형이 단순하여 데이터 내부의 패턴 또는 규칙을 잘 학습하지 못하는 현상이다.
    • 학습 데이터에서도 정확한 결과를 도출하지 못한다.
  3. 일반화
    • 학습 데이터를 통해 생성된 모델이 평가 데이터를 통한 성능 평가 외에도
    • 검증용 테스트 데이터를 통해 정확하게 예측하는 모델을 일반화된 모형이라고 한다.


This post is licensed under CC BY 4.0 by the author.