boostcamp ai tech 3기 12주 회고

4월 4일 월요일

Back translation 작업에 큰 문제가 생겼었다. 주말 동안 한글에서 영어로 변환하는 분업 작업은 순조롭게 다들 진행되었다. 다만 영어에서 다시 한글로 변환하는 작업에서 에러가 발생했다. 한글에서 영어로 변환하는 작업만 대략 10시간, 그리고 다시 영어를 한글로 변환하는 작업은 그것보다 더 오래 걸리는 작업인데, 각자 차이는 있었지만 변환 작업에서 에러가 발생했다. 문제 원인을 알아보니 파파고 작업창에서 랜덤으로 파파고에듀 광고 팝업창이 하단에 뜨는 바람에 셀레니움 작업에 문제가 생기는 걸로 추측되었다.

뿐만 아니라 우연히 새로운 사실을 알게 되었는데, 셀레니움 작업 시에 V100서버보다 코랩을 이용하면 더 작업이 빨랐다. 코랩 런타임 유형을 NONE으로 설정 시에 vscode에서 작업하는 것보다 훨씬 빠르다. 그래서 나는 우선 파파고에듀 팝업창이 뜨면 그걸 닫고 나서 번역을 진행하는 과정을 코드로 구현해서 추가했다. 그리고 코랩에서 각자 할당받은 문장을 500개씩 나누어서 작업하거나, 혹은 전체를 돌리는 작업을 시작했다.

문제 원인 파악과 개선, 그리고 새로운 사실 발견 후 시도. 앞서 언급한 모든 일이 피어세션을 시작하고 1시간 이내에 일어났다. 굉장히 생산적인 피어세션이었다. 이것저것 하고 싶은 말이 많아서 6시가 넘어서야 피어세션을 끝냈다. 오늘도 2시간 이상 좋은 대화를 나누었다.

4월 5일 화요일

  1. 파파고에듀 팝업창을 닫는 코드를 try except 코드로 구현했었는데 잘 작동하지 않았다.
  2. 다량의 작업을 코랩에서 진행할 때는 소분해서 진행하자. 런타임이 끊기는 바람에 밤새서 문장 500개씩 재번역해야만 했다.
  3. back translation을 사용해서 모델을 돌린 결과가 기대만큼 좋지 않았다.

4월 6일 수요일

marianMT를 이용해서 back translation을 하려는 시도가 실패했다. 우선 토크나이저부터 어떻게 사용할지 잘 모르겠다. 한국어를 대상으로 한 케이스는 찾아봐도 나오지 않았다. 번역 결과도 신통치 않을 것으로 예상되는데, 어쩌면 한국어라서 제대로 작동하지 않을 수도 있겠다. 다음에 비슷한 상황이 온다면 그냥 영어로 모델을 학습시켜보자는 이야기가 나왔다.

최종 프로젝트 관련해서 찾은 자료들을 공유했다.

아 인생..

목요일에 대회가 끝났다. 마지막 순간까지 learnigng rate를 낮춰가면서 두 번씩 학습하고, softvoting을 시도했다. 다만 LR을 낮춰서 두 번 학습했던 결과를 softvoting 한 것은 무슨 이유에서인지 정상적으로 제출 완료되지 않았다.

숨겨졌던 나머지 50%의 데이터까지 추가된 테스트 데이터로 평가된 최종 결과는 3위였다. 2위까지 발표를 해야 했는데, 3위를 해서 발표를 안하게 되어서 오히려 좋다고 자위했다…아쉽다. 하지만 대회 내내 리더보드 상위권에 머물렀고, 약 2주 동안이나 1위를 차지했던 우리 팀이 자랑스럽다.

KLUE_NLP_팀 리포트(10조) 노션 링크

KLUE_NLP_팀 리포트(10조) 제출본.pdf