boostcamp ai tech 3기 14주 회고

4월 18일 월요일

어노테이션 작업이 거의 완료되었다.

4월 19일 화요일

어노테이션 작업이 어제 완료되었다. 1%도 안되는 비율을 가졌던 라벨을 제외하고, 최종 결과를 보면 다음과 같다.

  정호 지민 태양 남현 원식 기원 SUM %
no_relation 22 165 82 193 145 78 685 32.24
per:production 21 8 9 6 9 23 76 3.58
per:title 1 2 15 1 2 6 27 1.27
org:production 9 15 23 16 10 9 82 3.86
com:date_of_produced 21 19 9 14 20 17 100 4.71
com:sub_concept 75 33 180 147 68 151 654 30.78
com:alternative_names 8 26 39 29 23 65 190 8.94
com:made_of 42 10 5 9 7 12 85 4.00
com:prior_technology 4 12 15 13 13 4 61 2.87
com:similar_technology 14 8 17 46 37 43 165 7.76
  217 298 394 474 334 408 2125 100

여섯 명이니 작업물이 총 여섯 개인데, 교차검수를 최소 두 번은 해서 문장 당 세 명이 담당할 수 있도록 하기로 했다.

‘2차 피어세션이피어습니다’ 발표 준비를 하고, 발표자를 뽑았다. 원식님이 발표 예정이다.

참고로 각자가 맡은 교차검수 담당은 다음과 같다.

김남현 민원식 전태양 정기원 주정호 최지민
지민 남현 원식 태양 기원 정호
정호 지민 남현 원식 태양 기원

오늘 나는 지민님이 하신 작업물을 검수했다. 지민님이 선정한 entity 대상은 내 생각과 다른 경우가 일부 있었으나 선정한 entity의 subj_word와 obj_word는 내 생각과 같았다. 그리고 같은 문장이 아니더라도 같은 라벨인 게 모여있는 패턴을 보였다. 아마 작업할 때 특정 구간을 기준으로 특정 라벨을 먼저 어노테이션하는 스타일이었을 것 같다. 가이드라인을 나름 신경써서 작성했고, 그 덕분에 다른 팀과 달리 피드백에서 칭찬이 많았다고 생각했는데, 막상 교차검수 작업을 해보니 조금 더 자세하게 보완할 필요가 있다고 느꼈다. 최대한 문장, entity만 보고 작업을 하려했지만, 지민님이 어떤 생각을 가지고 작업을 했을지 많은 고민을 한 날이다.

4월 20일 수요일

오늘은 정호님의 작업물을 검수했다. 정호님은 지민님보다 나와 생각이 조금 더 다른 것 같아서 재밌었다. entity 대상 선정에 대한 생각이 다를 뿐만 아니라, 선정한 entity들 중 어떤 걸 subj_word로 할지에 대한 부분도 달랐다. 실수가 아니라면 이는 결국 나와 정호님이 의도하는 라벨이 다르다는 걸 의미한다. 시간만 충분하다면 교차검수를 더 꼼꼼하게 하고 싶었다.

4월 21일 목요일

오전에 데일리 스크럼 1시간 반, 오후에 피어세션을 4시간 반 동안 줌으로 진행했다. 생산성이 아주 높았던 날이다.

어제 완료한 교차검수 결과를 바탕으로 Fleiss’ Kappa 값을 측정해보니 0.7 후반대의 값이 나왔다. 기대보다 훨씬 잘 나온 결과라서 만족했다.

우리가 교차검수를 두 번 했던 이유는 한 문장당 세 명이 달라붙어서 총 세 개의 라벨 판결이 나오게 하기 위함이었다. 그리하여 홀수 개의 판결을 바탕으로 과반수로 라벨을 결정 지었다. 단, 세 사람의 판단이 모두 달랐던 것을 모아서 오늘 데일리 스크럼 시간에 다 같이 판단했다. 세 사람이 라벨링한 결과가 모두 달랐던 이 악질? 케이스들을 기소해서 재판장에 세운 다음 1시간 반 동안 재판을 진행했는데 재밌었다. 대부분의 케이스는 담당했던 세 사람이 모두 당시에 실제로 고민을 한 것들이었다. 재판에서 우리는 각자 주장과 근거를 제시하고, 애매했던 사례들을 한 데 모아서 합의한 후에 나중에 가이드라인에 추가할 사례로 기록했다. 특이사항이 있었다. 세 사람의 판단이 전부 달랐던 케이스에서, 똑같은 문장 안에 똑같은 사례들이 있다면 각 사례마다 전부 일관성 있게 모두 각자가 생각한 라벨로 판단했다. 비록 판단은 갈렸지만, 초기 가이드라인을 어느 정도 잘 작성한 덕분에 이렇게 일관된 판단이 나올 수 있었던 것 같다.

13시 30분부터 다시 줌을 켰다. 가이드라인을 더 상세하게 수정 및 보완하고, 어노테이션 작업과 데일리 스크럼 때의 재판 과정에서도 잡아내지 못했던 일부 에러들을 찾았다. 특히 가이드라인에서 일부 라벨에 대한 설명과 예시를 자세하게 썼다.

특히 description 부분을 보완한 결과는 다음과 같다. 라벨을 판단할 때 도움이 될 수 있도록 문장 안에서 등장해야할 특정 표현을 추가했다.

id class_name (ko) class_name (en) direction (sub, obj) description
1 관계_없음 no_relation (*, *) 관계를 유추할 수 없음. 정의된 클래스 중 하나로 분류할 수 없음
2 인물:제작 per:production (PER, POH / COM) Object는 Subject가 제작한 것
3 인물:직업/직함 per:title (PER, POH) Object는 Subject의 직업/직함
4 단체:제작 org:production (ORG, POH / COM) Object는 Subject가 제작한 것
5 기술:제작_날짜 com:date_of_produced (COM, DAT) Object는 Subject가 제작된 날짜
6 기술:하위_개념 com:sub_concept (COM, COM / POH) Object는 Subject의 하위 개념
7 기술:별칭 com:alternative_names (COM, COM / POH) Object는 Subject의 또다른 이름
8 기술:도구 com:made_of (COM, COM) Object는 Subject를 만든(e.g. 작성, 개발, 구현한) 기술
9 기술:선행_기술 com:prior_technology (COM, COM) Object는 명시적으로(e.g. 근간을 두다, 기반하다.) Subject보다 앞선 기술
10 기술:유사_기술 com:similar_technology (COM, COM) Object는 명시적으로 Subject와 어떠한 공통 성질을 보유한 기술