boostcamp ai tech 3기 13주 회고

4월 13일 수요일

지난 이틀 동안은 NLP 데이터 제작에 관한 강의만 들었다. 오늘부터 우리 팀은 본격적으로 데이터 제작을 시작했다. 우리 팀은 ‘컴퓨터 언어’ 텍스트 데이터를 할당 받아서 데이터 제작을 해야 한다. tagtog 사이트를 처음 써봤는데 오피스아워 때 간단하게 설명법을 배웠지만 다소 어려웠다. 어떻게 할지 모르겠어서 14시 경부터 줌으로 함께 작업을 시작했다. 결과적으로 합의한 바는 다음과 같다.

  1. 우리 팀이 이번 데이터 제작에서 맡은 ‘컴퓨터 언어’ 카테고리에 속하는 52개의 텍스트 파일을 분배.
  2. subj/obj entity type 정의.
  3. subj/obj entity type에 따른 relation 정의.
  4. 기초적인 가이드라인 합의(e.g. formula2와 같이 수식은 entity 대상으로 하지 않는다.)
  5. 다음날까지 각자 할당받은 텍스트 파일 중 2개를 골라 파일럿 어노테이션 작업을 실시한다.

우리 팀이 담당하는 데이터 주제는 재미없는 것 같다. 반려동물 같은 거였다면 재밌었을텐데 아쉽다. 컴퓨터 언어라 그런지 cs지식 공부하는 느낌인데다 entity를 어떤 걸로 할지, entity type은 어떤 걸로 할지, entity 간에 relation은 어떤 게 있는지 합의하는 데에 시간이 꽤 오래걸렸다. 뿐만 아니라 나중에 어노테이션 결과를 json파일로 스프레드시트에 어떻게 옮기면 되는지에 대한 고민도 했다. 아무래도 데이터 제작은 다들 처음인데다가 데이터의 주제도 까다로운 것이어서 어려운 것 같다.

4월 14일 목요일

가이드라인 작성과 어노테이션 파일럿 작업을 실시하고, 논의가 필요한 부분에 대해 피어세션 때 합의를 했다. 예를 들어서 “…기본적인 C++ 문법에 메시지 처리, 예외 처리, 런타임 처리, 동적 클래스 객체 생성을 위한 매크로를 추가해…“라는 문장이 있다면 ‘C++ 문법’을 SUB-COM-Sub_concept entity로 설정하고, ‘메시지 처리, 예외 처리, 런타임 처리, 동적 클래스 객체 생성’을 통으로 OBJ-COM-Sub_concept로 하지 않고 메시지 처리, 예외 처리, 런타임 처리, 동적 클래스 객체 생성을 하나씩 obj entity로 보고 관계를 각각 맺어주기로 했다. 그리고 com:similar_technology라는 관계를 추가하고 그에 필요한 entity type도 추가했다.

idx class_name (ko) class_name (en) direction (sub, obj) description  
1 관계_없음 no_relation (*, *) 관계를 유추할 수 없음. 정의된 클래스 중 하나로 분류할 수 없음
2 인물:제작 per:production (PER, POH / COM) Object는 Subject가 제작한 것  
3 인물:직업/직함 per:title (PER, POH) Object는 Subject의 직업/직함  
5 단체:제작 org:production (ORG, POH / COM) Object는 Subject가 제작한 것  
6 단체:하위_단체 org:members (ORG, ORG) Object는 Subject에 속하는 단체  
7 기술:제작_날짜 com:date_of_produced (COM, DAT) Object는 Subject가 제작된 날짜  
8 기술:하위_개념 com:sub_concept (COM, COM / POH) Object는 Subject의 하위 개념  
9 기술:별칭 com:alternative_names (COM, COM / POH) Object는 Subject의 또다른 이름  
10 기술:도구 com:made_of (COM, COM) Object는 Subject를 만든 기술  
11 기술:선행_기술 com:prior_technology (COM, COM) Object는 Subject의 선행 기술  
12 기술:유사_기술 com:similar_technology (COM, COM) Object는 Subject와 유사한 기술  
SUBJ Entity OBJ Entity Relations
SUB-PER-Production OBJ-POH-Production / OBJ-COM-Production per:production
SUB-PER-Title OBJ-POH-Title per:title
SUB-PER-Colleagues OBJ-PER-Colleagues per:colleagues
SUB-ORG-Production OBJ-POH-Production (위랑 중복되서 추가X) / OBJ-COM-Production (위랑 중복되서 추가X) org:production
SUB-ORG-Members OBJ-ORG-Members org:members
SUB-COM-Date_of_prod OBJ-DAT-Date_of_prod com:date_of_produced
SUB-COM-Sub_concept OBJ-COM-Sub_concept / OBJ-POH-Sub_concept com:sub_concept
SUB-COM-Alter_names OBJ-COM-Alter_names / OBJ-POH-Alter_names com:alternative_names
SUB-COM-Made_of OBJ-COM-Made_of com:made_of
SUB-COM-Prior_tech OBJ-COM-Prior_tech com:prior_technology
SUB-COM-Similar_tech OBJ-COM-Similar_tech com:similar_technology
SUB-PER OBJ-* no_relation
SUB-ORG OBJ-* no_relation
SUB-COM OBJ-* no_relation