fasttext 예제

하위 수준 정보를 사용하면 알 수 없는 단어에 대한 벡터를 작성하는 것이 특히 흥미롭습니다. 예를 들어, 기어시프트라는 단어는 위키백과에 존재하지 않지만 가장 가까운 기존 단어를 쿼리할 수 있습니다. 특히 루트 폴더의 예제 스크립트는 이 작업을 수행합니다. 문서 폴더에서 추가 파이썬 예제를 찾을 수 있습니다. 다음은 다양한 장소에서 제공 된 예제 (예 : 여기)에 따라 fastText를 배우고 시도하는 것입니다. 예를 들어, `밤의 마지막 도넛`에서 유니그램은 `마지막`, `도넛`, `의`, `밤`입니다. `라스트 도넛`, `도넛`, `더 나이트`가 있습니다. 전체 데이터 집합에는 15404개의 예제가 포함되어 있습니다. 12404 예제와 3000 개의 예제의 유효성 검사 집합으로 나눕니다: 단어 벡터를 계산하려면 큰 텍스트 모음이 필요합니다.

코퍼스에 따라 벡터라는 단어는 다른 정보를 캡처합니다. 이 자습서에서는 위키백과의 기사에 중점을 두지만 뉴스 나 웹 크롤링과 같은 다른 소스를 고려할 수 있습니다(자세한 예는 여기). 위키백과의 원시 덤프를 다운로드하려면 다음 명령을 실행합니다: 예측된 태그는 이 질문에 잘 맞는 베이킹입니다. 이제 두 번째 예제를 시도해 보겠습니다: FastText는 단어 벡터 a.k.k.a word2vec이 모든 단어를 벡터 표현을 찾을 수 있는 가장 작은 단위로 취급한다는 의미에서 다르지만 FastText는 예를 들어 n그램의 문자로 형성되는 단어를 가정합니다. , 햇볕이 잘 드는 [태양, 태양, 맑은], [햇볕이 잘 드는, unny, nny] 등으로 구성되어 있으며, n은 단어의 길이에 1에서 범위까지 다양할 수 있습니다. fastText에 의해 단어의이 새로운 표현word2vec 또는 장갑을 통해 다음과 같은 이점을 제공 합니다. 텍스트 분류의 목표는 문서(예: 이메일, 게시물, 문자 메시지, 제품 리뷰 등)를 하나 또는 여러 범주에 할당하는 것입니다. 이러한 범주는 검토 점수, 스팸 v.s. 비스팸 또는 문서가 입력된 언어일 수 있습니다.

요즘, 이러한 분류기를 구축하는 지배적 인 접근 방식은 기계 학습, 즉 예에서 분류 규칙을 학습하는 것입니다. 이러한 분류기를 구축하려면 문서와 해당 범주(또는 태그 또는 레이블)로 구성된 레이블이 지정된 데이터가 필요합니다. 사전 (모델)의 모든 단어 목록을 얻으려면 예제 파이썬 프로그램이 사용을 보여 줍니다. 예의 수: 400000 [email protected]은 정밀도 [email protected]는 일부 다른 컴퓨터 또는 향후에서 훈련된 모델(위의 cbow 모델 훈련 또는 건너뛰기 모델 훈련의 출력)을 사용하는 리콜이며, 다음 예는 사용을 보여 준다.