본문 바로가기
정보관리기술사/★ 128회 기출문제 풀이 ★

(128 관리 3-5) 데이터 값 진단 프로파일링의 중점 분석 관점

by 두음달인 2022. 8. 11.
반응형
데이터 통합 및 마이그레이션 프로젝트에서 데이터 무결성 목표를 달성하기 위해서는
데이터들의 정합성을 확보하고 신뢰도를 높이는 일이 매우 중요하다.
다음의 내용을 설명하시오.

가. 데이터 무결성(Integrity)과 정합성(Consistency)의 차이
나. 데이터 값(Value) 진단 프로파일링(Data Profiling)의 중점 분석 관점
다. 데이터 마이그레이션 검증 테스트 방법

 

참고 자료

 

한국데이터산업진흥원 - 정보마당 | 조사·연구보고서 (kdata.or.kr)

 

한국데이터산업진흥원

블로그 데이터바우처, 그 기업이 궁금해? Q. 간단한 기업·사업 소개 부탁드립니다. A. "안녕하세요. 케어푸드 데크 전문회사 쿡플레이 대표 신민선입니다." 저희는 식사관리가 어려운 이들에게

www.kdata.or.kr

데이터 품질진단 절차 및 기법(Ver1.0)

 

멘토링

이 문제를 풀기 위해서는 데이터 품질 진단데이터 프로파일링에 대해
정확한 개념을 알아야 합니다.

실제 시험을 봤다면 선택하기 쉽지 않은 문제로 생각됩니다.

이번 글에서는 두 개념에 대해 정리하는 내용 위주로 포스팅 하겠습니다.

 

데이터 품질진단

 

해당 조직이 운영ㆍ관리하고 있는 정보 시스템에 저장된
정형⋅비정형 데이터의 품질을 측정하여 현재의 수준을 평가하고
품질 저하의 요인을 분석하여 개선 사항을 제안하는 절차

 

데이터와 관련된 품질진단의 종류

 

데이터 값 진단, 데이터 구조 진단, 데이터 관리 프로세스 진단

 

정형 데이터에 대한 데이터 값 진단

 

운영 데이터베이스의 테이블ㆍ컬럼ㆍ코드ㆍ관계ㆍ업무규칙을 기준으로

데이터의 값에 대한 현상을 분석한다.

또한 데이터 값과 관련된 품질 기준을 적용하여,

오류내역을 산출하고 주요 원인을 분석하여 개선 사항을 제안한다.

 

특히 데이터 값과 관련된 오류는 데이터의 구조ㆍ흐름 통제ㆍ관리 프로세스와 연관되어 발생 한다.

초기 구조 설계 오류ㆍ일관성 결여ㆍ관리 프로세스 결여ㆍ오너쉽 결여 등으로 인하여

낮은 품질의 데이터가 지속적으로 발생할 수 있다.

따라서 데이터 값 진단의 개선사항은 그 오류발생 원인 분석에 따라

값의 정제 외에도 구조 개선사항ㆍ데이터 흐름통제ㆍ관리 프로세스의 개선사항이 포함 된다.

 

비정형 데이터에 대한 데이터 값 진단

 

비정형 콘텐츠 자체의 상태메타데이터에 대한 데이터 품질진단으로 이루어진다.

 

비정형 콘텐츠 자체의 상태에 대한 진단은

그 내용 자체의 합목적성을 비롯하여 동영상, 이미지, 3D 등 비정형 콘텐츠 유형 따라

각기 다른 관점에서 작성된 콘텐츠의 상태를 시각이나 청각, 또는 자동화된 도구를 이용하여 진단한다.

 

메타데이터의 경우는 콘텐츠 파일 자체에 저장되는 메타데이터와

정형 데이터의 형식으로 데이터베이스에 별도 저장되는 메타데이터로 구분하여

주로 데이터베이스에 별도 저장된 메타데이터에 대하여 정형 데이터와 유사한 기준과 방법에 의 해 진단을 수행한다.

 

또한 정형 데이터에 대한 진단에서와 마찬가지로 비정형 콘텐츠 유형별로 관련된 품질기준을 적용하여,

오류내역을 산출하고 주요 원인을 분석하여 개선 사항을 제안하는 절차가 포함된다.

 

데이터 프로파일링

 

주로 정형 텍스트 데이터 및 비정형 콘텐츠의 메타데이터에 대한 품질진단에 활용되며,
통계적 기법을 활용하여 데이터의 품질과 관련된 현상을 파악하는 절차로서
데이터 소스에 존재하는 데이터의 구조, 내용, 품질을 파악하기 위해 다양한 형태로 분석하는 절차이다.
다시 말해 데이터에 대한 정보를 추출하는 것이다.

 

데이터 프로파일링 목적

 

데이터 프로파일링은 메타데이터와 대상 소스데이터에 대한 통계적 분석 결과를 통해
데이터 품질 문제를 이슈화하고 개선점을 찾는 것을 주된 목적으로 한다.

 

데이터프로파일링(Data profiling)은

데이터 소스에 대해 일련의 데이터 검사 절차를 수행함으로써

데이터에 관한 중요한 정보와 통계치를 수집하는 것

 

데이터 프로파일링은 발견(Discovery)과 검증(Verification)이라는 절차로 구성

 

데이터 프로파일링 수행 절차

 

 

데이터 값(Value) 진단 프로파일링(Data Profiling)의 중점 분석 관점 질의에 대해

 

데이터 프로파일링 수행 단계에서 

누락 값, 비유효 값, 유일하지 못한 값 등으로 설명하면 좋을 듯 판단됩니다.

 

관련하여, 유형별 프로파일링 기법을 참고하시길 바랍니다.

 

유형별 프로파일링 기법

 

기법 설명
누락 값
분석
누락 값 분석은 반드시 입력되어야 하는데 값의 누락이 발생된 컬럼을 발견하는 절차이다.
누락 값 분석은 NULL 값의 분포와 공백값(‘’), 숫자 ‘0’ 등의 분포를 파악하여 실시한다
값의 허용범위
분석
값의 허용 범위 분석은 컬럼의 속성 값이 가져야 할 범위 내에 속성 값이 있는지의
여부를 파악하는 것이며 이는 해당 속성의 도메인의 유형에 따라 그 범위가 결정된다.
허용 값 목록
분석
허용 값 목록 분석은 해당 컬럼의 허용값 목록이나 집합에 포함되지 않는 값을
발견하는 분석 방법
문자열 패턴
분석
컬럼 패턴은 컬럼 속성 값의 특성을 문자열로 도식화한 것으로서
값의 특성이 문자열로 반복되고 변형되는 대표적인 모형을 미리 정형화하여
해당 컬럼의 특성을 파악하기 쉽게 해 놓은 데이터 표현 방법 중 하나이다.
날짜유형
분석
일반적으로 날짜유형을 표현할 경우 다음의 두 가지의 방법 을 많이 사용한다.
첫째 DBMS에서 제공하는 DATETIME의 유 형을 사용하는 경우이며,
둘째는 문자형에 날짜패턴을 적용 하여 활용하는 경우이다.
유일값
분석
유일값 분석은 업무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었는가를
파악하기 위한 것이다.
테이블의 식별자 로 활용되는 컬럼 속성 값들이 주요 유일값 분석 대상이다.
구조
분석
데이터 구조 분석은 구조 결함으로 인한 일관되지 못한 데이 를 발견하는 분석 기법으로,
관계분석ㆍ참조 무결성 분석 ㆍ구조 무결성 분석 등으로 불리기도 한다.
즉, 데이터 구조 분석은 잘못된 데이터 구조로 인해 데이터 값에서 일관되지 못하거나
부정확한 값이 발견되는 현상을 파악하는 작업이다.

 

반응형

댓글