IT이야기

레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 차이점

cyworld 2021. 9. 25. 11:12
반응형

레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 차이점은 무엇입니까?


에서 세바스찬 튕기는 소리의 비디오 그는 그 "이라는"데이터 "레이블이없는"데이터 자율 학습 작품과 작품을 학습 감독 말한다. 이것은 무엇을 의미합니까? "레이블이 있는 데이터와 레이블이 없는 데이터"를 검색하면 이 주제에 대한 많은 학술 논문이 반환됩니다. 기본적인 차이점을 알고 싶습니다.


일반적으로 레이블이 지정되지 않은 데이터는 세계에서 비교적 쉽게 얻을 수 있는 자연 또는 인간이 만든 인공물의 샘플로 구성됩니다. 레이블이 지정되지 않은 데이터의 일부 예에는 사진, 오디오 녹음, 비디오, 뉴스 기사, 트윗, 엑스레이(의료 응용 프로그램에서 작업하는 경우) 등이 포함될 수 있습니다. 레이블이 지정되지 않은 데이터의 각 부분에 대한 "설명"은 없습니다. 데이터만 포함하고 다른 것은 포함하지 않습니다.

레이블 이 지정된 데이터는 일반적으로 레이블 이 지정되지 않은 데이터 집합을 사용하고 레이블이 지정되지 않은 데이터의 각 부분을 일종의 의미 있는 "태그", "레이블" 또는 "클래스"로 보강합니다. 예를 들어 위의 레이블이 지정되지 않은 데이터 유형에 대한 레이블은 이 사진에 말이 포함되어 있는지 또는 소가 포함되어 있는지, 이 오디오 녹음에서 어떤 단어가 사용되었는지, 이 비디오에서 수행되는 작업 유형, 이 뉴스 기사의 주제가 될 수 있습니다. 이 트윗의 전반적인 감정이 무엇인지, 이 엑스레이의 점이 종양인지 여부 등입니다.

데이터에 대한 레이블은 레이블이 지정되지 않은 데이터(예: "이 사진에 말이나 소가 포함되어 있습니까?")에 대한 판단을 사람에게 요청하여 얻는 경우가 많으며 레이블이 지정되지 않은 원시 데이터보다 얻는 데 훨씬 더 많은 비용이 듭니다.

레이블이 지정된 데이터 세트를 얻은 후 머신 러닝 모델을 데이터에 적용하여 레이블이 없는 새로운 데이터를 모델에 표시하고 레이블이 지정되지 않은 데이터에 대해 가능한 레이블을 추측하거나 예측할 수 있습니다.

레이블이 지정되지 않은 데이터와 레이블이 지정된 데이터를 통합하여 더 우수하고 정확한 세계 모델을 구축하는 것을 목표로 하는 머신 러닝 연구 분야가 많이 있습니다. 준지도 학습은 레이블이 지정되지 않은 데이터와 레이블이 지정된 데이터(또는 더 일반적으로 일부 데이터 포인트에만 레이블이 있는 레이블이 없는 데이터 세트)를 통합 모델로 결합하려고 시도합니다. 심층 신경망 및 기능 학습은 레이블이 지정되지 않은 데이터만으로 모델을 구축한 다음 레이블의 정보를 모델의 흥미로운 부분에 적용하려는 연구 분야입니다.


기계 학습에는 다양한 문제가 있으므로 사례로 분류선택하겠습니다 . 분류에서 레이블이 지정된 데이터는 일반적으로 다차원 특징 벡터의 백(일반적으로 X라고 함)과 각 벡터에 대해 레이블 Y로 구성되며 이는 종종 범주에 해당하는 정수입니다. (면=1, 비면=-1). 레이블이 지정되지 않은 데이터에는 Y 구성요소가 없습니다. 레이블이 지정되지 않은 데이터는 풍부하고 쉽게 얻을 수 있지만 레이블이 지정된 데이터에는 종종 사람/전문가가 주석을 달아야 하는 시나리오가 많이 있습니다.


레이블 데이터 에 의해 사용, 지도 학습은 의미있는 추가 태그 또는 라벨 또는 클래스를 관찰 (또는 행)에. 이러한 태그는 관찰에서 비롯되거나 사람 또는 전문가에게 데이터에 대해 질문할 수 있습니다.

분류회귀 는 지도 학습을 위해 레이블이 지정된 데이터 세트에 적용될 수 있습니다.

머신 러닝 모델을 레이블이 지정된 데이터에 적용하여 레이블이 지정되지 않은 새로운 데이터를 모델에 제공하고 가능한 레이블을 추측하거나 예측할 수 있습니다. 여기에 이미지 설명 입력

Unsupervised learning 에서 사용되는 레이블이 지정되지 않은 데이터 에는 의미 있는 태그나 레이블이 연결되어 있지 않습니다. 여기에 이미지 설명 입력비지도 학습은 데이터 또는 예상되는 결과에 대한 정보가 거의 또는 전혀 없기 때문에 지도 학습보다 알고리즘이 더 어렵습니다.

클러스터링 은 데이터 포인트 또는 유사한 객체를 그룹화하는 데 사용되는 가장 인기 있는 비지도 머신 러닝 기술 중 하나로 간주됩니다.

비지도 학습에는 모델이 더 적고 모델의 결과가 정확한지 확인하는 데 사용할 수 있는 평가 방법이 더 적습니다. 따라서 비지도 학습은 기계가 우리를 위해 결과를 생성하므로 제어하기 어려운 환경을 만듭니다.

사진 제공 : Coursera: Python을 사용한 기계 학습

ReferenceURL : https://stackoverflow.com/questions/19170603/what-is-the-difference-between-labeled-and-unlabeled-data

반응형