모델은 다른 캠퍼분들의 기여로 좋은 점수를 내고 있어서 이번 주는 데이터에 집중할 수 있었다. 다른 조랑 점수 격차도 꽤 있어서 여유로웠다. 그래서 이번 주 내내 우리는 Back translation과 데이터 교정 작업에 매달렸다. Back translation은 한->영->한 과정을 거쳤는데 셀레니움으로 파파고 번역으로 일을 진행했다. 시행착오를 많이 겪었는데 정기원 캠퍼님께서 많은 수고를 해주셨다. 다만 문장이 너무 많으니 분담해서 하기로 했다. 그리고 그 전에 데이터셋에서 잘못된 label이나 entity type을 교정하기로 했다. 이 또한 작업량이 굉장히 많은 관계로 분담해서 일을 했다. 대략 3700 문장씩 담당했다.
잘못된 데이터가 많았다. 하지만 교정을 하고 싶어도 어떻게 교정을 해야할지 판단하기에 애매한 경우가 많았다. 예를 들어서 브랜드 이름을 ORG(조직)로 봐야 할지 아니면 POH(상품)로 봐야하는지 고민되는 경우가 있었다. e.g) subj_word와 obj_word가 이수건설-브라운스톤, nc소프트-스푼즈라면 문맥상 스푼즈나 브라운스톤 같은 데서 뭔가 새 걸 출시하거나 만들었다인데 이럴 경우에 브라운스톤과 스푼즈의 obj_type을 ORG랑 POH 둘 중에 무엇으로 할지 고민되었다. 문장마다 문맥이 다른 의미를 가질 때가 있어서 어떤 걸로 쉽게 결정할 수 없었다. 뿐만 아니라 교정하다보니 국가의 도시, 도청 소재지를 알게 되었다. 예를 들어서 대한민국-서울이면 subj_type과 obj_type이 각각 ORG, LOC로 설정되어야 한다. 왜냐하면 대한민국의 중심지 혹은 핵심 본부의 위치가 서울이니까. 반면에 부산-기장군이라면 ORG-ORG로 하는 게 맞을 것이다. 왜냐하면 기장군이 부산의 중심지나 중앙 본부가 위치한 곳이 아니니까. 후…미국 텍사스주의 주도가 오스틴이라는 걸 아시나요?
문제는 우리가 이렇게 열심히 하나하나 교정한다해도 성능이 확실히 개선될 거라는 보장이 없었다. 왜냐하면 test 데이터조차 잘못되어 있을 가능성이 크니까. 따라서 큰 오류만 잡기로 합의했다. label이 완전히 잘못되어 있는 경우처럼 완전히 틀린 케이스가 아니라면 데이터를 고치지 않기로 했다.
부디 좋은 결과가 있었으면 한다.
3월 30일 기준 1등이다.