AI 데이터 품질 시험이란?
기업 및 공공기관이 보유한 데이터를 국제표준*에 따라 시험하여 데이터의 품질 완성도를 높이고 양질의 데이터를 확보하기 위한 시험
* ISO/IEC 25024 Systems and software engineering - Systems and software Quality Requirements and Evaluation (SQuaRE) - Measurement of data quality
* ISO/IEC 5259-2 Artificial intelligence - Data quality for analytics and machine learning (ML) Part 2: Data quality measures
시험 대상
시험 방법
AI 데이터 품질 진행 절차
AI 데이터 품질 시험 신청
AI 데이터 품질
구분 | 시험 항목 | 시험 방법 |
---|---|---|
데이터의 일관성 유지 시험 |
일관성 | 데이터가 모순이 없고 특정 사용 상황에서 다른 데이터와 일관성이 있는 속성을 갖는 정도를 측정 |
복구성 | 장애가 발생하더라도 일정 수준의 운영과 품질을 유지하고 보존할 수 있는 정도를 측정 | |
신뢰성 | 특정 사용 상황에서 사용자가 신뢰할 수 있는 속성을 가진 데이터의 정도를 측정 | |
이식성 | 데이터가 다양한 환경에서도 동일하고 일관성 있게 제공되는지 측정 | |
이해가능성 | 데이터가 명확하고 일관되게 표현되어 사용자가 쉽게 이해할 수 있는 정도를 측정 | |
데이터 요구사항 기반 시험 |
정밀성 | 데이터의 정밀도를 만족하는 데이터 값의 비율을 측정 |
준수성 | 표준, 협약 또는 규정에 부합하는 데이터 항목의 비율을 측정 | |
완전성 | 데이터 항목 중 Null이 없는 데이터 항목을 측정 | |
정확성 | 데이터셋 내의 데이터 항목들이 올바른 데이터 값이나 올바른 데이터 라벨을 가지고 있는 정도를 측정 | |
현재성 | 업데이트 주기와 조건에 맞게 업데이트 요청이 있는 데이터 항목의 비율을 측정 | |
데이터 접근/통제 시험 |
기밀성 | 데이터가 특정 사용 환경 내에서 인가된 사용자만이 접근 가능하며 해석할 수 있음을 보장하는 속성을 갖는 정도 |
추적성 | 요청된 접근 추적성 값이 존재하는 데이터 값의 비율을 측정 | |
데이터 가용성 시험 | 가용성 | 데이터 항목이 검색 및 요청되었을 때 이용할 수 있는 데이터 항목 비율을 측정 |
효율성 | 데이터가 처리 및 활용되는 과정에서 응답시간, 처리량, 자원사용량 등을 측정 | |
접근성 | 특정 사용 환경에서 데이터 항목에 접근할 수 있는 데이터 항목 비율을 측정 | |
AI 데이터 특화 시험 | 감사가능성 | 데이터셋 전체 또는 일부가 감사를 받았거나 감사 수행을 목적으로 관련 이해관계자가 데이터에 접근할 수 있는 특성을 측정 |
균형성 | 데이터셋의 모든 특징에 대한 샘플 분포를 측정(밝기, 해상도, 범주, 바운딩박스, 라벨 비율, 라벨 분포) | |
다양성 | 데이터셋 내 다양한 조건을 가진 개체들의 포함 정도를 측정 | |
유효성 | 데이터셋이 특정 작업에서 사용하기 위한 요구사항을 충족하는지를 측정 | |
식별가능성 | 데이터셋 내에서 각 데이터 항목이 다른 항목과 구분될 수 있는지를 측정 | |
관련성 | 데이터 항목이 특정 사용 목적이나 요구에 대해 얼마나 적절하고 유용한지를 측정 | |
대표성 | 데이터셋이 목표대상의 특성 분포를 얼마나 잘 반영하는지를 측정 | |
유사성 | 두 데이터 항목 간의 속성값 또는 의미의 유사 정도를 측정 | |
적시성 | 기준 시점 대비 허용된 시간 범위 내에 생성되거나 갱신된 데이터 항목의 비율을 측정 |