반응형

NLP 5

1.5 딥러닝을 사용하는 자연어 처리 연구

자연어 처리는 기계학습과 딥러닝이 도입된 이후 가장 큰 수혜를 받아 그 성능과 정확도가 크게 상승했습니다. 딥러닝을 사용한 자연어 처리는 모델에 따라 세세한 차이는 있지만, 대부분 아래와 같은 단계를 거쳐 진행됩니다. 먼저 어떠한 목적으로 자연어 처리를 도입할 것인지 결정합니다. 해당 목적과 관련된 학습 데이터(코퍼스)를 구축하거나 확보합니다. 학습 데이터를 통해 학습시킬 모델을 작성합니다. 모델을 코퍼스를 이용하여 학습시킵니다. 학습된 모델을 검증하고 문제가 있을 경우 2~4단계로 돌아가 수정합니다. 완성된 모델을 실전에 투입합니다. 1.5.1 단어 임베딩 단어 임베딩(word embedding)은 자연어로 되어있는 문장을 컴퓨터가 받아들일 수 있도록 하는 문장의 전처리 과정 중 하나입니다. 특히 단어..

1.4 자연어처리 연구의 패러다임

1.4.1 규칙 기반 '규칙 기반'이란, 언어의 문법적인 규칙을 사전에 정의해두고 그것에 기반하여 자연어를 처리하는 방식을 말합니다. 가장 전통적인 프로그래밍 방식과 가깝다고 할 수 있습니다. 기계번역을 규칙 기반으로 처리한다면 핵심이 되는 단어들을 사전을 통해 번역한 다음, 원본 문장에서 발견되는 문법적인 규칙을 찾아낸 후 대응하는 번역한 언어의 규칙을 불러와 이를 이용해 단어와 단어 사이를 이어주는 순서로 진행됩니다. 간단한 명령을 인식하는 것 역시 규칙 기반으로 처리할 수 있습니다. 규칙 기반의 자연어 처리의 가장 큰 문제점은 규칙을 사전에 직접 구축해야 한다는 것입니다. 1.4.2 통계 기반 규칙 기반 자연어 처리의 한계를 극복하기 위해 제시된 방법이 바로 통계 기반 자연어 처리입니다. 가장 중심..

1.3 자연어처리는 왜 어려운가?

자연어처리가 최근 많은 관심을 받고 다양한 분야에 활용되고 있지만 그 대중성에 비해 처리 난이도는 상당히 높습니다.(e.g. 전처리 및 정제 과정) 기계 번역의 성능이 최근 매우 좋아졌지만 여전히 사람들은 번역기가 자연스럽지 않다고 여깁니다. 자연어 처리가 매우 어렵기 때문에 기계번역이 등장한 뒤 한참이 지난 지금도 매끄러운 번역을 제공하지 못하기 때문입니다. 자연어처리가 다른 CS연구에 비해 특히 어려운 것은 처리해야 하는 데이터가 어떤 수치화된 값이 아니라 인간의 언어, 즉 '자연어'이기 때문입니다. 무엇이 자연어를 복잡하게 하는지 알아봅시다. 1.3.1 언어의 중의성 같은 글자에도 맥락에 따라 해석의 여지가 달라질 수 있는 것을 중의성이라고 합니다. 1.3.2 규칙의 예외 형태론 : 언어의 규칙을 ..

1.2 자연어처리의 응용 분야

자연어처리의 응용 분야는 무엇이 있을까요?? 자연어처리를 활용하는 방안 중 하나는 실제 발화된 내역을 통계적으로 조사하는등 언어학적인 연구에 사용하는 것입니다. 이렇게 컴퓨팅 기술을 적극적으로 활용하는 언어학의 하위분야를 전산언어학이라고 합니다. 주로, 언어의 규칙 등을 찾기 위해 규칙 기반 혹은 통계 기반의 언어를 많이 진행하지만, 최근의 연구 트렌드에 맞추어 딥러닝을 도입하기도 합니다.

1.1 자연어 처리란

이 포스팅은 임희석 교수님의 자연어처리 바이블 책을 기반으로 공부하며 기록한 글입니다. 1. 자연어란? 위키피디아에서 확인한 바는 다음과 같습니다. 즉, 자연어(Natural Language)란 사람들이 일상생활에서 자연스럽게 사용하는 언어를 말합니다. 사람들 사이에서 이루어지는 대화는 일반적으로 자연어가 사용됩니다. 하지만 컴퓨터와 사람 사이에서는 대부분 그렇지가 않습니다. 컴퓨터에게 원하는 특정한 일을 시키고 싶을 때에는 컴퓨터에게 정해진 프로그래밍 언어로 작성해주어야 합니다. 2. 자연어 처리(Natural Language Processing, NLP)란? 즉, 자연어 처리란 컴퓨터가 자연어를 이해하거나 생성할 수 있도록 하는 학문 분야라 할 수 있습니다. 자연어 처리는 크게 두 가지 분야로 나눌 ..

반응형