Releases: bab2min/Kiwi
Releases · bab2min/Kiwi
0.16.1
0.16.0
기능 추가/개선
- 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 &
Kiwi::analyze
에pretokenized
인자 추가 - 사용자 정의로 쓸 수 있는
user0~4
태그 추가 - 순서 있는 글머리를 위한
sb
태그 추가 - Java용 바인딩인 KiwiJava 제공 (실험적)
버그 수정
- 다양한 문장 분리 오류 수정
Full Changelog: v0.15.2...v0.16.0
v0.15.2
0.15.1
0.15.0
기능 추가/개선
- 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인
splitComplex
도입 - 부사파생접사를 위한
XSM
태그 추가 및 이에 해당하는 형태소-이
,-히
,-로
,-스레
추가 - 조사/어미에 덧붙는 받침을 위한
Z_CODA
태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가 - 형태 분석 및 언어 모델 탐색 속도 최적화
- 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
- 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
- 문장 분리 성능 개선
2010. 01. 01.
와 같이 공백이 포함된 serial 패턴 처리 보강Dr., Mr.
와 같이 약자 표현의.
이 마침표로 처리되지 않도록 보강- '-음'으로 문장이 끝나는 경우를 판별하기 위해
음/EF
형태소 추가 및 모델 보강
버그 수정
- 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
- bab2min/kiwipiepy#111
- 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정
0.14.1
v0.14.0
기능 개선
- 이르다(일렀다, 이르렀다)의 모호성 해소 (#54)
- 연속된 숫자열을 처리하는 W_SERIAL 태그 추가 (#14)
- 따옴표, 괄호의 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화 (#104)
- 문장 분리 시 인용문으로 안긴 문장을 인식하도록 수정(bab2min/kiwipiepy#84)
랬/댔/잖
의 분석 정확도 개선- #110
- 내장 오타 사전
typo.dict
추가. 내장 오타 사전의 로드 유무를 설정하는 옵션BuildOption::loadTypoDict
추가
버그 수정
- #107
- bab2min/kiwipiepy#90
- Joiner의 결합 정확도 개선 (bab2min/kiwipiepy#91)
- UTF16 Surrogate 영역의 문자열이 종종 잘못 쪼개져서 UnicodeError를 발생시키는 오류 수정
- bab2min/kiwipiepy#92
KiwiBuilder::addRule
함수에서 일부 이형태가 누락되는 버그 수정 (bab2min/kiwipiepy#94)
Kiwi v0.13.1
버그 수정
AutoJoiner
에 특정 문자열을 입력 시 크래시가 발생하는 버그 수정
Kiwi v0.13.0
신기능
- 형태소 분석 과정에서 간단한 오타를 교정하는 기능 추가 (#76)
- 장거리 형태소 간의 관계를 고려할 수 있는 SkipBigram 언어 모델 추가
버그 수정
- 공백이 있음에도 이를 고려하지 않고 강제로 붙여서 해석하는 오류 수정(ex:
다 갔다
)
Kiwi v0.12.0
신기능
- 동사 '걷다'와 '묻다'의 모호성 해소 기능 추가
- 동/형용사 형태소의 불규칙 활용 여부를 구분하는 자질 추가(#56)
kiwi::setIrregular
,kiwi::clearIrregular
,kiwi::isIrregular
함수를 통해 품사 태그에 불규칙 활용 여부 정보를 덧붙이거나 빼거나 확인할 수 있음- 불규칙 활용을 하는 동/형용사를 위한 품사 태그
VV-I
,VA-I
,VX-I
,XSA-I
추가.
- 형태소 분석 결과 중 각 형태소별 언어 모델 상의 점수를 확인할 수 있도록
kiwi::TokenInfo
에score
멤버 변수 추가 - 형태소를 결합하여 원본 텍스트를 복원하는 클래스인
kiwi::cmb::AutoJoiner
추가 (#54) - 언어 모델 정확도 추가 개선