[데이터제작-NLP] 데이터 제작 개론

데이터 구축 과정

  1. 원시 데이터 선정 및 확보(저작권, 테스크 적합성)
  2. 구축 및 가공 프로세스 확립(구축 및 검수 절차, 작업자 선정)
  3. 구축 및 가공 지침 작성(플랫폼 소통 및 작업자 교육)
  4. 데이터 구축 및 가공(파일럿, 작업자 관리)
  5. 데이터 검수(품질 평가 기준 데이터 규격, 내용)

AI 데이터 설계의 구성 요소

  • 데이터 설계(데이터 형식, 데이터 표상 영역)
  • 데이터 수집-가공 설계(원천 데이터 수집 방식:전산화, 스크래핑, 작업자 작성, 모델 생성, 주석 작업: 전문가 구축, 크라우드 소싱)

데이터 설계

  • 데이터 input과 output 형식(파일 확장자)을 항상 고려해야 한다.

  • 데이터(train/ dev(validation)/ test)별 규모와 구분(split) 방식 설정…이는 확보 가능한 원시데이터 크기와 주석 작업 시간에 달려 있다.

  • 구분 방식 : 데이터별 비율과 기준 정하기

  • 데이터 주석 유형 :

데이터 수집-가공 설계

원시 데이터 수집, 작업자 선정, 구축 및 검수 설계하는 단계

  • 데이터 구축 및 가공(파일럿, 본 구축)
    • 파일럿 단계에선 설계 시 발견 못한 이슈 발굴 및 해결, 가이드라인 보완 및 개정, 작업자 선정
    • 본 구축에선 작업 일정 관리, 작업자 관리, 중간 검수를 통한 데이터 품질 관리
  • 데이터 검수 및 분석
    • 샘플링 검사, 가이드라인 적합도 평가,
    • 데이터 형식, 레이블별 분포 파악, 일괄 수정 사항 반영..

유용한 정보

최신 자연어 처리 사이트

  • nlpprogress.com
  • paperswithcode.com

유명데이터셋

  • 질의응답 - SQuAD
  • 기계번역 - WMT 데이터셋
  • 요약 - CNN/Daily Mail
  • 대화 - DSTC, Wizard of Oz