기계학습 (문단 편집)

==== 비지도 학습(Unsupervised Learning) ====
사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것. 즉 y 없이 x만 이용해서 학습하는 것이다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있기도 하다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있다.
 
최근에는 레이블을 사람이 직접 레이블하는 것이 아닌, 컴퓨터가 임의로 직접 레이블을 지정할 수 있어 레이블이 없는 데이터셋으로 학습할 수 있는 일부 문제[* 예를 들어 이미지에 생긴 노이즈를 제거하는(Denoising) 문제. 이 경우 데이터로 이미지만 잔뜩 주어지면 노이즈 낀 이미지는 그냥 원본 데이터셋에 노이즈를 뿌리는 것으로 만들 수 있고 이 경우 노이즈를 만든 이미지가 입력, 원본 이미지가 레이블이 된다. 즉 레이블이 주어지지 않은 데이터를 사용한 비지도 학습이지만 실제 학습은 직접 주어진 레이블을 사용하는 지도 학습으로 이루어진다. 해당 학습법의 대표적인 예시로 이미지의 전반적 특징(Feature)을 추출하기 위해 이미지를 저차원인 특징 벡터로 엔코딩시키고 그 특징 벡터를 디코딩하여 원본 이미지와 같은 이미지를 출력하게 만드는 오토인코더(Autoencoder)가 있다.]는 자가지도 학습(Self-supervised Learning)이라는 용어로 따로 분류하고 있다.
   * [[군집 분석|군집화]](Clustering): 데이터가 쭉 뿌려져 있을 때 레이블이 없다고 해도 데이터 간 거리에 따라 데이터를 몇 개의 군집으로 나눌 수 있다. 이렇게 x만 가지고 군집을 학습하는 것이 군집화이다.
   * 분포 추정(Underlying Probability Density Estimation): 군집화에서 더 나아가서, 데이터들이 쭉 뿌려져 있을 때 얘네들이 어떤 확률 분포에서 나온 샘플들인지 추정하는 문제이다.
   * 최근 들어 GPT-2 같이 데이터 일부를 가지고 나머지를 추측하는 방식으로 데이터를 이해하고자 하는 연구가 많이 진행되어 있다. 예로 든 GPT-2는 텍스트를 읽고 바로 다음에 올 단어를 예측하는데, 인터넷에서 수집한 텍스트 30GB로 훈련했더니 특별한 지도학습 없이도 대부분의 일을 수행하고[* 한 예로 영화 감상평 분석의 경우 그 글과 very를 입력으로 주고 positive와 negative 중에 어떤 게 더 알맞은지를 찾는 방식], 약간의 지도학습을 곁들이면 모든 분야에서 모든 기존 방식을 앞질렀다. 특히 일반 상식을 묻는 시험에서는 아무런 지도 학습 없이도 다른 기존 방식을 큰 폭으로 제치고 1위를 달성했다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

기계학습 (문단 편집)

캡챠