4월 18일 월요일
어노테이션 작업이 거의 완료되었다.
4월 19일 화요일
어노테이션 작업이 어제 완료되었다. 1%도 안되는 비율을 가졌던 라벨을 제외하고, 최종 결과를 보면 다음과 같다.
정호 | 지민 | 태양 | 남현 | 원식 | 기원 | SUM | % | |
---|---|---|---|---|---|---|---|---|
no_relation | 22 | 165 | 82 | 193 | 145 | 78 | 685 | 32.24 |
per:production | 21 | 8 | 9 | 6 | 9 | 23 | 76 | 3.58 |
per:title | 1 | 2 | 15 | 1 | 2 | 6 | 27 | 1.27 |
org:production | 9 | 15 | 23 | 16 | 10 | 9 | 82 | 3.86 |
com:date_of_produced | 21 | 19 | 9 | 14 | 20 | 17 | 100 | 4.71 |
com:sub_concept | 75 | 33 | 180 | 147 | 68 | 151 | 654 | 30.78 |
com:alternative_names | 8 | 26 | 39 | 29 | 23 | 65 | 190 | 8.94 |
com:made_of | 42 | 10 | 5 | 9 | 7 | 12 | 85 | 4.00 |
com:prior_technology | 4 | 12 | 15 | 13 | 13 | 4 | 61 | 2.87 |
com:similar_technology | 14 | 8 | 17 | 46 | 37 | 43 | 165 | 7.76 |
217 | 298 | 394 | 474 | 334 | 408 | 2125 | 100 |
여섯 명이니 작업물이 총 여섯 개인데, 교차검수를 최소 두 번은 해서 문장 당 세 명이 담당할 수 있도록 하기로 했다.
‘2차 피어세션이피어습니다’ 발표 준비를 하고, 발표자를 뽑았다. 원식님이 발표 예정이다.
참고로 각자가 맡은 교차검수 담당은 다음과 같다.
김남현 | 민원식 | 전태양 | 정기원 | 주정호 | 최지민 |
---|---|---|---|---|---|
지민 | 남현 | 원식 | 태양 | 기원 | 정호 |
정호 | 지민 | 남현 | 원식 | 태양 | 기원 |
오늘 나는 지민님이 하신 작업물을 검수했다. 지민님이 선정한 entity 대상은 내 생각과 다른 경우가 일부 있었으나 선정한 entity의 subj_word와 obj_word는 내 생각과 같았다. 그리고 같은 문장이 아니더라도 같은 라벨인 게 모여있는 패턴을 보였다. 아마 작업할 때 특정 구간을 기준으로 특정 라벨을 먼저 어노테이션하는 스타일이었을 것 같다. 가이드라인을 나름 신경써서 작성했고, 그 덕분에 다른 팀과 달리 피드백에서 칭찬이 많았다고 생각했는데, 막상 교차검수 작업을 해보니 조금 더 자세하게 보완할 필요가 있다고 느꼈다. 최대한 문장, entity만 보고 작업을 하려했지만, 지민님이 어떤 생각을 가지고 작업을 했을지 많은 고민을 한 날이다.
4월 20일 수요일
오늘은 정호님의 작업물을 검수했다. 정호님은 지민님보다 나와 생각이 조금 더 다른 것 같아서 재밌었다. entity 대상 선정에 대한 생각이 다를 뿐만 아니라, 선정한 entity들 중 어떤 걸 subj_word로 할지에 대한 부분도 달랐다. 실수가 아니라면 이는 결국 나와 정호님이 의도하는 라벨이 다르다는 걸 의미한다. 시간만 충분하다면 교차검수를 더 꼼꼼하게 하고 싶었다.
4월 21일 목요일
오전에 데일리 스크럼 1시간 반, 오후에 피어세션을 4시간 반 동안 줌으로 진행했다. 생산성이 아주 높았던 날이다.
어제 완료한 교차검수 결과를 바탕으로 Fleiss’ Kappa 값을 측정해보니 0.7 후반대의 값이 나왔다. 기대보다 훨씬 잘 나온 결과라서 만족했다.
우리가 교차검수를 두 번 했던 이유는 한 문장당 세 명이 달라붙어서 총 세 개의 라벨 판결이 나오게 하기 위함이었다. 그리하여 홀수 개의 판결을 바탕으로 과반수로 라벨을 결정 지었다. 단, 세 사람의 판단이 모두 달랐던 것을 모아서 오늘 데일리 스크럼 시간에 다 같이 판단했다. 세 사람이 라벨링한 결과가 모두 달랐던 이 악질? 케이스들을 기소해서 재판장에 세운 다음 1시간 반 동안 재판을 진행했는데 재밌었다. 대부분의 케이스는 담당했던 세 사람이 모두 당시에 실제로 고민을 한 것들이었다. 재판에서 우리는 각자 주장과 근거를 제시하고, 애매했던 사례들을 한 데 모아서 합의한 후에 나중에 가이드라인에 추가할 사례로 기록했다. 특이사항이 있었다. 세 사람의 판단이 전부 달랐던 케이스에서, 똑같은 문장 안에 똑같은 사례들이 있다면 각 사례마다 전부 일관성 있게 모두 각자가 생각한 라벨로 판단했다. 비록 판단은 갈렸지만, 초기 가이드라인을 어느 정도 잘 작성한 덕분에 이렇게 일관된 판단이 나올 수 있었던 것 같다.
13시 30분부터 다시 줌을 켰다. 가이드라인을 더 상세하게 수정 및 보완하고, 어노테이션 작업과 데일리 스크럼 때의 재판 과정에서도 잡아내지 못했던 일부 에러들을 찾았다. 특히 가이드라인에서 일부 라벨에 대한 설명과 예시를 자세하게 썼다.
특히 description 부분을 보완한 결과는 다음과 같다. 라벨을 판단할 때 도움이 될 수 있도록 문장 안에서 등장해야할 특정 표현을 추가했다.
id | class_name (ko) | class_name (en) | direction (sub, obj) | description |
---|---|---|---|---|
1 | 관계_없음 | no_relation | (*, *) | 관계를 유추할 수 없음. 정의된 클래스 중 하나로 분류할 수 없음 |
2 | 인물:제작 | per:production | (PER, POH / COM) | Object는 Subject가 제작한 것 |
3 | 인물:직업/직함 | per:title | (PER, POH) | Object는 Subject의 직업/직함 |
4 | 단체:제작 | org:production | (ORG, POH / COM) | Object는 Subject가 제작한 것 |
5 | 기술:제작_날짜 | com:date_of_produced | (COM, DAT) | Object는 Subject가 제작된 날짜 |
6 | 기술:하위_개념 | com:sub_concept | (COM, COM / POH) | Object는 Subject의 하위 개념 |
7 | 기술:별칭 | com:alternative_names | (COM, COM / POH) | Object는 Subject의 또다른 이름 |
8 | 기술:도구 | com:made_of | (COM, COM) | Object는 Subject를 만든(e.g. 작성, 개발, 구현한) 기술 |
9 | 기술:선행_기술 | com:prior_technology | (COM, COM) | Object는 명시적으로(e.g. 근간을 두다, 기반하다.) Subject보다 앞선 기술 |
10 | 기술:유사_기술 | com:similar_technology | (COM, COM) | Object는 명시적으로 Subject와 어떠한 공통 성질을 보유한 기술 |