2026. 3. 25. 23:16ㆍIntegrated
대한민국 공공데이터 표준사전 체계
1. (표준데이터)「공공데이터 공통표준」 8차 제정 및 일부 개정 안내
https://www.data.go.kr/bbs/rcr/selectRecsroom.do?originId=PDS_0000000001253
1-1. 관련
가. 공공데이터의 제공 및 이용 활성화에 관한 법률 제 23조(공공데이터의 표준화)
나. 공공기관의 데이터베이스 표준화 지침(행정안전부고시 제2025-19호)
1-2. 공공기관이 데이터베이스 구축 시 공통으로 적용하여야 하는 표준용어를 정의한 공공데이터 공통표준을 아래와 같이 추가(8차) 제정 및 일부 개정하여 안내드리니,
각 기관에서는 본 표준에 따라 데이터베이스 표준화 업무에 활용해 주시기 바랍니다.
1-3. 주요 내용
○ (제정) 공통표준용어 4,132개(누적 13,159개), 공통표준단어 885개(누적 3,280개), 공통표준도메인 14개(누적 126개)
○ (개정) 공통표준용어 716개, 공통표준단어 53개, 공통표준도메인 6개
4. 관련문의
○ (소속) 한국지능정보사회진흥원 공공데이터인프라팀
시트에 공통표준용어, 공통표준단어, 공통표준도메인 의 단어 사전과 같은 것이 등록된 것을 확인할 수 있습니다.
위와 같은 국가 공공기관들에서 사용단어들을 모으고 모아서 만들어진 걸작품이랍니다.
대한민국 IT 저력을 내 보일 때가 되었다고 깊이 생각되는 지점입니다.
2. 표준사전부터 DB반영까지 (feat. 엔코아)
이것이 어떻게 활용하고, 내부에서는 표준사전 지식체계 기틀을 마련하여서
의미 자산화를 하고, 지식 온톨로지의 기반을 확실히 다지며
데이터 통합 체계의 기틀을 마련하는데에 큰 의의가 있겠습니다.
표준사전부터 DB반영까지 (전체 플레이 리스트)
https://www.youtube.com/playlist?list=PLaKPcpeG46lvyktrtHwBms3rIgnlOuziq
1. DA#, META# 개요
2. 표준데이터
3. 표준사전 생성
4. 표준단어 신청/승인
5. 표준 도메인 신청/승인
6. 표준 코드 신청
7. 표준 용어 신청
8. 표준데이터 변경/삭제
9. DA#과 META#간의 연계
10. 모델 생성 및 기본 편집
11. 표준사전 연결과 적용
12. DB 리버스 모델링
13. 모델 승인 및 조회
14. DB 정보 수집
15. 모델-DB 매핑과 Gap 분석
3. 표준사전은 꼭 필요하나요?
데이터의 정확성과 일관성을 유지하기 위해서는 표준화된 기준(데이터 표준)을 따르는 것이 권장됩니다.
표준사전이나 데이터 표준을 사용하는 이유와 대안에 대해 정리해 드릴게요.
3-1. 왜 표준사전을 쓰나요? (주요 장점)
의사소통 일관성: '고객명', '이름', '성명'처럼 같은 정보를 서로 다르게 부르는 혼란을 막고, 누구나 동일한 의미로 이해하게 해줍니다.
데이터 통합 용이성: 여러 시스템의 데이터를 합칠 때 표준화된 형식을 사용하면 데이터 변환 비용과 오류가 획기적으로 줄어듭니다.
검색 및 분석 효율: 메타데이터가 표준화되어 있으면 시스템이 정보를 더 쉽게 분류하고 찾아낼 수 있어 분석 생산성이 높아집니다.
데이터 표준화란?
https://www.purestorage.com/kr/knowledge/what-is-data-standardization.html
데이터 표준화를 꼭 해야만 하는 이유
https://www.s-data.co.kr/?p=298
메타 데이터의 정의와 기본 개념
https://www.fanruan.com/ko-kr/glossary/big-data/what-is-metadata-and-why-is-it-important
3-2. 표준사전을 안 쓰면 어떻게 되나요?
데이터의 의미가 모호해져 분석 결과에 오류가 생길 수 있습니다.
시스템 간 데이터를 주고받을 때마다 수동으로 형식을 맞춰야 하는 번거로움이 생깁니다.
장기적으로 데이터 관리 비용이 계속해서 늘어나게 됩니다.
3-3. 꼭 '공인된' 표준만 써야 하나요?
내부 표준 수립: 국가나 산업계에서 정한 공인 표준사전이 조직의 특성과 맞지 않는다면, 조직 내부적으로 합의된 자체 표준사전을 만들어 사용해도 충분합니다.
유연한 적용: 초기 단계에서는 모든 항목을 표준화하기보다, 핵심 데이터(주요 지표, 공통 코드 등)부터 단계적으로 표준을 적용하는 방식이 효율적입니다.
결론적으로, 외부의 표준사전을 그대로 가져다 쓸 필요는 없지만, 데이터의 정체성을 규정하고 관리하기 위한 '우리만의 기준(내부 표준)'은 반드시 갖추는 것이 좋습니다.
4. 온톨로지 구성으로 올라가기 위한 기초석
온톨로지를 구성할 때 모든 데이터를 처음부터 정의하기는 매우 어렵기 때문에, 이미 잘 만들어진 표준사전(Vocabulary)이나 스키마를 활용하는 것이 일반적입니다. 이를 통해 다른 데이터와의 호환성을 확보하고 구축 시간을 단축할 수 있습니다. 대표적으로 쓰이는 표준들은 다음과 같습니다.
4-1. 일반적인 정보 모델 (범용)
* Schema.org: 구글, 마이크로소프트 등이 주도하는 표준입니다. 사람, 장소, 이벤트, 제품 등 웹상의 거의 모든 개념을 정의하고 있어 가장 대중적입니다.
* Dublin Core (DC): 문서, 이미지, 비디오 같은 '디지털 자원'의 메타데이터를 정의할 때 필수적인 표준입니다. (제목, 작성자, 날짜 등)
* FOAF (Friend of a Friend): 사람 간의 관계나 개인 정보를 표현할 때 주로 사용합니다.
4-2. 개념 및 분류 체계 (용어 정의)
* SKOS (Simple Knowledge Organization System): 시사우러스, 분류표, 주제어 사전 등을 온톨로지 형태로 구조화할 때 사용하는 표준입니다. 용어 간의 계층 구조(상위/하위)를 잡기에 좋습니다.
4-3. 산업 및 특정 분야별 표준
* BioPortal: 생물학 및 의학 분야의 온톨로지 표준들이 모여 있는 곳입니다.
* GoodRelations: 전자상거래 및 제품 정보를 상세하게 정의할 때 사용합니다.
* BPMO: 비즈니스 프로세스 관리 모델링을 위한 표준입니다.
4-4. 공공 데이터 (국내)
* 공공데이터 공통표준용어: 대한민국 행정안전부에서 관리하는 표준으로, 공공 기관 간 데이터 개방 및 연계를 위해 필수적으로 참조합니다.
4-5. 어떻게 활용하면 좋을까요?
(1) 재사용(Reuse): 처음부터 만들지 말고 위 표준들 중에서 내 도메인에 맞는 클래스(Class)와 속성(Property)을 먼저 가져옵니다.
(2) 확장(Extend): 표준에 없는 우리 조직만의 특수한 개념만 새로 정의해서 붙입니다.
(3) 매핑(Mapping): 이미 내부 용어가 있다면, 그것이 표준사전의 어떤 용어와 대응되는지 연결해 줍니다.
팁: 온톨로지 설계 도구인 Protégé(프로테제) 등을 사용할 때, 위 표준들의 URI를 임포트(Import)하면 해당 개념들을 바로 불러와 사용할 수 있습니다.
'Integrated' 카테고리의 다른 글
| 정답 유형을 분류하는 딥러닝 기술 (0) | 2024.05.24 |
|---|---|
| 구글 도움말과 공식 교육 자료 활용 (0) | 2022.12.13 |
| 이웃을 위한 적정과학기술 100선 자료집 (0) | 2022.06.02 |
| jar 파일 모음 (0) | 2022.05.15 |