데이터 구축 과정
- 원시 데이터 선정 및 확보(저작권, 테스크 적합성)
- 구축 및 가공 프로세스 확립(구축 및 검수 절차, 작업자 선정)
- 구축 및 가공 지침 작성(플랫폼 소통 및 작업자 교육)
- 데이터 구축 및 가공(파일럿, 작업자 관리)
- 데이터 검수(품질 평가 기준 데이터 규격, 내용)
AI 데이터 설계의 구성 요소
- 데이터 설계(데이터 형식, 데이터 표상 영역)
- 데이터 수집-가공 설계(원천 데이터 수집 방식:전산화, 스크래핑, 작업자 작성, 모델 생성, 주석 작업: 전문가 구축, 크라우드 소싱)
데이터 설계
-
데이터 input과 output 형식(파일 확장자)을 항상 고려해야 한다.
-
데이터(train/ dev(validation)/ test)별 규모와 구분(split) 방식 설정…이는 확보 가능한 원시데이터 크기와 주석 작업 시간에 달려 있다.
-
구분 방식 : 데이터별 비율과 기준 정하기
-
데이터 주석 유형 :
데이터 수집-가공 설계
원시 데이터 수집, 작업자 선정, 구축 및 검수 설계하는 단계
- 데이터 구축 및 가공(파일럿, 본 구축)
- 파일럿 단계에선 설계 시 발견 못한 이슈 발굴 및 해결, 가이드라인 보완 및 개정, 작업자 선정
- 본 구축에선 작업 일정 관리, 작업자 관리, 중간 검수를 통한 데이터 품질 관리
- 데이터 검수 및 분석
- 샘플링 검사, 가이드라인 적합도 평가,
- 데이터 형식, 레이블별 분포 파악, 일괄 수정 사항 반영..
유용한 정보
최신 자연어 처리 사이트
- nlpprogress.com
- paperswithcode.com
유명데이터셋
- 질의응답 - SQuAD
- 기계번역 - WMT 데이터셋
- 요약 - CNN/Daily Mail
- 대화 - DSTC, Wizard of Oz