기계번역기

모델

지원인데요 2022. 1. 17. 15:43
728x90
반응형

안녕하세요. 이번에 기록할 포스팅은 기계 번역기 모델 알고리즘을 간략하게 기록하려 합니다.

 

흔히들 알고 있는 Seq2Seq모델을 활용하였고 sequence to sequence의 내부 구성 모델은 LSTM으로 구성하였습니다.

encoder부분에서는 bidirectional LSTM, decoder부분에서는 unidirectional LSTM을 사용하였습니다.

 

inference과정과 training과정의 괴리를 줄이고자 input feeding기법을 사용하였습니다.

 

google colab pro를 사용하여 GPU 환경을 구성하였고, 하이퍼 파라미터는 다음과 같습니다.

 

batch_size = 256

epochs = 20

max_length = 64

dropout = 0.2

word_vector_size = 512(embedding size)

hidden_size = 768

max_grad_norm = 1e+9

iteration_per_update= 2

learning rate = 1e-3

adam 사용

 

iteration_per_update는 gradient accumulation을 사용한 것입니다.

 

추가적으로 질문이 있으시면 댓글에 남겨주세요!

 

※ 패스트 캠퍼스 강사 김기현님의 자연어 처리 생성 강의를 학습하면서 코딩한 내용임을 밝힙니다.

반응형

'기계번역기' 카테고리의 다른 글

BLEU  (0) 2022.01.18
preprocessing  (0) 2022.01.06