boostcamp ai tech 3기 19주 회고

5월 23일 월요일

심리 상담을 위한 챗봇을 만들고 있다. 내담자가 말을 하면 그에 적절한 답변을 하는 구조다. multi-turn 형식은 구현하기 어려워서 일단 single-turn으로 구현한 다음 short-turn 방식으로 점차 발전시켜나갈 계획이다. 내담자의 말에 따른 적절한 답변 후보를 세 가지씩 준비시켜놨는데, 여기에 살을 붙여서 답변을 하면 좋을 것 같아서 어울리는 어록/명언이나 음악 추천을 할 생각이다.

실제 상담 예시를 보니 보통 그냥 경청하고 공감해주는 게 대부분이지만 가끔씩은 직접적인 해결책을 제시하기도 해서 그런 해결방안을 제시할 수 있는 데이터를 찾아봤다. 데이터를 바탕으로 알맞은 답변을 추출하거나 생성하면 좋을 것 같았다. 다만 상담이란 게 민감한 부분이라 공개된 내용을 찾기 어려웠고, 네이버 지식인 같은 경우는 제대로 된 답변이 거의 없었다. 뿐만 아니라 내담자의 상황에 어울리는 제대로 된 해결책을 제시하지 못할 바에 그냥 안하는 게 좋을 것 같다는 생각이 든다. 그래서 차라리 어떠한 상황에서도 어울릴 응원이나 격려하는 메시지를 추가하는 게 나을 거라는 결론을 내렸다.

5월 24일 화요일

최근 망가진 생활 패턴으로 인해 피곤하고 집중이 안되는 날이다. 알맞은 데이터를 찾을 수가 없다. 그나마 내가 원하는 것과 비슷한 데이터는 전부 영어 데이터이고, 이를 제대로 번역할 방법도 없으리라. 최종 프로젝트에 주어진 시간은 겨우 3주라서 아쉽다. 시간만 충분하다면 필요한 데이터를 직접 하나하나 수집하고 싶다. 이전 대회까지는 주어지는 데이터가 있었으나 지금은 필요한 좋은 데이터를 직접 수집해야 하는데, 한글 데이터가 너무나도 부족하다는 걸 깨달았다. 국책사업으로 한글 데이터 저장소를 만드는 게 있다면 지원하고 싶은 마음이다. 사람들이 잘 쓸 수 있게 다양한 데이터를 직접 수집해서 여러가지 형태로 가공해서 준비하고 싶다.

내담자가 채팅을 입력할 때 혐오표현이 있다면 필터링하는 기능에 시간을 투자해봐야겠다.

5월 25일 수요일

정호님이 소개한 혐오표현 필터 깃허브를 참고하려 했건만 코드를 해석하기 힘들었다. 데이터도 없었고, 기학습된 모델이 있는 구글드라이브 접근 권한을 요청했지만 답이 없었다. 다른 방법을 찾아야 한다.

추가할 수 있는 발화 데이터를 생각했다.

5월 26일 목요일

논의 끝에 데이터와 기능을 풍부하게 하는 방향을 잡았다. aihub에서 27만 개의 문장이 있는 데이터를 찾았다. 이걸 기준으로 기존에 사용하던 데이터를 합치기로 했다. gpt2로 내담자의 말에 따른 답변을 생성하고, 그 답변과 유사한 것을 답변 데이터에서 찾는 모델을 만들기로 했다.

Korean UnSmile Dataset 깃허브를 찾았다. 쓰기 편해서 혐오표현이 포함된 내담자의 말을 걸러내는 데에 이걸 이용하면 될 것 같다.

5월 27일 금요일

혐오 표현 필터링 기능을 추가했다. 대체로 잘 작동하는 것 같다.