LLM tokenizer조사
Tokenizer의 종류Byte Pair Encoding (BPE):서브워드 토크나이저 (한 단어를 더 작은 단위로 나누는 토크나이저)중 하나. 압축 알고리즘에서 파생된 토크나이저로, 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 하나의 글자로 병합하는 방식을 수행하는 방법. 예시로 어떤 텍스트에서 아래와 같이 {단어:빈도수}와 같이 모든 단어의 횟수를 세어 딕셔너리를 만들었다고 가정하자.low : 5, lower : 2, newest : 6, widest : 3 그후 처음에는 글자(byte)로 구성된 vocabulary로 초기화를 한다.# vocabulary l, o, w, e, r, n, s, t, i, d 단어에서 앞뒤로 붙어나오는 byte pair의 갯수를 세어본다. 예를들면, low에서 (l,..