자연어처리 바이블/chapter1. 자연어처리의 기본

1.5 딥러닝을 사용하는 자연어 처리 연구

지원인데요 2022. 1. 4. 14:26
728x90
반응형

자연어 처리는 기계학습과 딥러닝이 도입된 이후 가장 큰 수혜를 받아 그 성능과 정확도가 크게 상승했습니다.

딥러닝을 사용한 자연어 처리는 모델에 따라 세세한 차이는 있지만, 대부분 아래와 같은 단계를 거쳐 진행됩니다.

  1. 먼저 어떠한 목적으로 자연어 처리를 도입할 것인지 결정합니다.
  2. 해당 목적과 관련된 학습 데이터(코퍼스)를 구축하거나 확보합니다.
  3. 학습 데이터를 통해 학습시킬 모델을 작성합니다.
  4. 모델을 코퍼스를 이용하여 학습시킵니다.
  5. 학습된 모델을 검증하고 문제가 있을 경우 2~4단계로 돌아가 수정합니다.
  6. 완성된 모델을 실전에 투입합니다.

1.5.1 단어 임베딩

단어 임베딩(word embedding)은 자연어로 되어있는 문장을 컴퓨터가 받아들일 수 있도록 하는 문장의 전처리 과정 중 하나입니다.

특히 단어(형태소) 단위로 문장을 분해할 때 많이 쓰이는 방법으로, 바로 각 단어(형태소)를 벡터로 변환하는 것입니다. 높은 차원의 벡터로 바꾸면서 비슷한 단어들은 벡터 간 거리가 가깝게 위치시키고, 비슷한 관계를 가진 단어 쌍 간의 거리와 비슷한 단어들은 벡터 간 거리가 가깝게 위치시키고, 비슷한 관계를 가진 단어 쌍 간의 거리와 방향을 비슷하게 하도록 합니다.

 

1.5.2 코퍼스

코퍼스(corpus)란 우리말로 '말뭉치'라고 하는 것으로, 통계 혹은 딥러닝 기반의 자연어 처리에서 사용되는 매우 많은 수의 문장의 모음입니다.

딥러닝을 사용하면 데이터의 품질에 학습된 모델의 성능이 크게 영향을 받기 때문에, 코퍼스를 잘 구축하는 것도 매우 중요합니다.

 

1.5.3 모델

모델을 구축한다는 것은 어떠한 학습 과정을 거치게 하는지에 대한 고민입니다.

모델을 어떻게 활용할 것인지에 따라 출력 형식을 지정하는 것도 모델 작성의 중요한 부분입니다.

잘 구성된 모델은 입출력단을 조금씩 변형하여 다른 하위 분야에 적용되기도 합니다.

반응형