boostcamp ai tech 3기 13주 회고
4월 13일 수요일
[데이터제작-NLP] 데이터 제작 개론
데이터 구축 과정
boostcamp ai tech 3기 12주 회고
4월 4일 월요일
boostcamp ai tech 3기 11주 회고
모델은 다른 캠퍼분들의 기여로 좋은 점수를 내고 있어서 이번 주는 데이터에 집중할 수 있었다. 다른 조랑 점수 격차도 꽤 있어서 여유로웠다. 그래서 이번 주 내내 우리는 Back translation과 데이터 교정 작업에 매달렸다. Back translation은 한->영->한 과정을 거쳤는데 셀레니움으로 파파고 번역으로 일을 진행했다. 시행착오를 많이 겪었는데 정기원 캠퍼님께서 많은 수고를 해주셨다. 다만 문장이 너무 많으니 분담해서 하기로 했다. 그리고 그 전에 데이터셋에서 잘못된 label이나 entity type을 교정하기로 했다. 이 또한 작업량이 굉장히 많은 관계로 분담해서 일을 했다. 대략 3700 문장씩 담당했다.