자연어처리 바이블/chapter1. 자연어처리의 기본

1.4 자연어처리 연구의 패러다임

지원인데요 2022. 1. 4. 14:18
728x90
반응형

1.4.1 규칙 기반

'규칙 기반'이란, 언어의 문법적인 규칙을 사전에 정의해두고 그것에 기반하여 자연어를 처리하는 방식을 말합니다.

가장 전통적인 프로그래밍 방식과 가깝다고 할 수 있습니다.

기계번역을 규칙 기반으로 처리한다면 핵심이 되는 단어들을 사전을 통해 번역한 다음, 원본 문장에서 발견되는 문법적인 규칙을 찾아낸 후 대응하는 번역한 언어의 규칙을 불러와 이를 이용해 단어와 단어 사이를 이어주는 순서로 진행됩니다. 간단한 명령을 인식하는 것 역시 규칙 기반으로 처리할 수 있습니다.

규칙 기반의 자연어 처리의 가장 큰 문제점은 규칙을 사전에 직접 구축해야 한다는 것입니다.

 

1.4.2 통계 기반

규칙 기반 자연어 처리의 한계를 극복하기 위해 제시된 방법이 바로 통계 기반 자연어 처리입니다.

가장 중심이 되는 수학적 개념으로 '조건부 확률'이 있습니다. 어떠한 사건이 이미 일어난 것을 가정하고, 그 상황에서 다른 사건이 일어날 확률을 말합니다. 

자연어 처리에 이 개념을 도입한다면 어떻게 될까요?

문장을 단어별로 나눕니다. 그다음, 문장을 완성시켜 나갈 때, 앞(혹은 뒤)에 등장한 단어라는 이미 일어난 사건에 대해 다음에 어떤 단어가 나올 확률이 가장 높은 지를 여러 단어들에 대해 계산해볼 수 있습니다. 이 중에서 가장 확률이 높은 단어를 선택하면 가장 자연스러운 문장이 될 확률이 높아집니다.

통계 기반 자연어 처리는 언어에 어떠한 규칙이 있다면 통계적으로 볼 때 규칙에 관여되는 단어(형태소) 사이에 유의미한 상관관계가 나타날 것이라는 아이디어에서 시작하였습니다.

규칙 기반에 비해 사람이 관여해야 하는 정도가 감소한 것 은 맞지만, 여전히 부족한 점은 있습니다.

 

1.4.3 딥러닝 기반

일반적으로 알고리즘이라고 하는 문제들은 어떤 상황에 어떻게 대응해야 하는지, 어떤 값을 어떻게 계산해야 하는지 등에 대한 정보를 사전에 다 지정해 둡니다.

하지만 점점 많은 데이터를 컴퓨터가 처리하게 되면서 모든 데이터가 정형화되어 있지 않고, 그 처리법과 가중치를 사람이 일일히 계산하는 것이 불가능에 가까워졌습니다.

 

기계학습(machine learning)은 이처럼 직접적인 알골즘을 개발하는 것이 불가능할 때 문제 해결을 위한 프로그램을 개발하기 위한 방법입니다.

딥러닝이란, 기계학습, 그 중에서도 신경망 구조에서 뉴런의 층 수를 많게는 몇십 단계로 만든 것을 말합니다.

 

딥러닝의 가장 큰 장점 중 하나는 단순히 통계적으로 분석한 것 이상의 효과를 낼 수 있다는 점입니다.(딥러닝은 여러 데이터 간에 복합적인 연결을 통해 심층적인 분석을 해낼 수 있기 때문!!)

 

반응형