Skip to content

Releases: bab2min/Kiwi

0.16.1

30 Jan 13:17
d70cf2f
Compare
Choose a tag to compare
  • -다.로 끝나는 문장의 어미들이 SB태그로 과도하게 잘못 분석되던 오류 수정
  • KiwiJava에서 topN 인자가 제대로 반영되지 않던 버그 수정

0.16.0

31 Aug 07:47
Compare
Choose a tag to compare

기능 추가/개선

  • 부분적으로 분석된 텍스트 처리를 위한 PretokenizedSpan 기능 구현 & Kiwi::analyzepretokenized 인자 추가
  • 사용자 정의로 쓸 수 있는 user0~4 태그 추가
  • 순서 있는 글머리를 위한 sb 태그 추가
  • Java용 바인딩인 KiwiJava 제공 (실험적)

버그 수정

  • 다양한 문장 분리 오류 수정

Full Changelog: v0.15.2...v0.16.0

v0.15.2

14 Jun 12:28
Compare
Choose a tag to compare

기능 개선

  • Joiner::add에서 결합시 띄어쓰기 포함 유무를 선택할 수 있는 옵션 인자 추가

버그 수정

  • 매우 긴 텍스트를 분석할 때 시작 지점이 잘못 나오는 버그 수정
  • U+10000 이상의 문자가 여러 개 포함된 텍스트를 SwTokenizer로 encode할때 offset이 누락되는 버그 수정

0.15.1

07 May 09:33
d0e3348
Compare
Choose a tag to compare
  • SwTokenizer 기능 중 미완성이었던 기능들의 구현 완료
  • SwTokenizer, UnigramSwTrainer의 각종 버그 수정

0.15.0

22 Mar 17:16
Compare
Choose a tag to compare

기능 추가/개선

  • 둘 이상의 형태소로 더 잘게 분리될 수 있는 형태소를 추가 분리하는 옵션인 splitComplex 도입
  • 부사파생접사를 위한 XSM 태그 추가 및 이에 해당하는 형태소 -이, -히, -로, -스레 추가
  • 조사/어미에 덧붙는 받침을 위한 Z_CODA 태그 추가 및 조사/어미에서 자동으로 Z_CODA를 분절해내는 기능 추가
  • 형태 분석 및 언어 모델 탐색 속도 최적화
  • 옛한글 문자를 특수 기호로 분리하지 않고 일반 한글과 동일하게 처리하도록 개선
  • 형태소 분석 기반의 Subword Tokenizer 구현 (현재 실험적으로 지원 중)
  • 문장 분리 성능 개선
    • 2010. 01. 01. 와 같이 공백이 포함된 serial 패턴 처리 보강
    • Dr., Mr. 와 같이 약자 표현의 .이 마침표로 처리되지 않도록 보강
    • '-음'으로 문장이 끝나는 경우를 판별하기 위해 음/EF 형태소 추가 및 모델 보강

버그 수정

  • 한 문장 내에서 사전에 미등재된 형태가 256개 이상 등장할 때 형태소 분석 결과가 잘못 나오는 문제 해결
  • bab2min/kiwipiepy#111
  • 이모지 등 U+10000 이상의 유니코드 문자를 모두 한자로 분류하던 버그 수정

0.14.1

23 Dec 16:26
Compare
Choose a tag to compare

버그 수정 및 개선

  • 특정 텍스트에 대해 형태소 분할 없이 전체 결과를 그대로 반환하는 오류 해결 (#114)
  • EF 뒤에 보조용언이 따라오는 경우 문장을 분리하지 않도록 개선 (bab2min/kiwipiepy#96)

새로운 기능

  • SBG 모델 학습 편의를 위한 HSDataset 추가
  • macOS에서 컴파일 시 CMakeLists에서 CPU 아키텍처를 설정하는 옵션 추가

v0.14.0

01 Sep 15:24
Compare
Choose a tag to compare

기능 개선

  • 이르다(일렀다, 이르렀다)의 모호성 해소 (#54)
  • 연속된 숫자열을 처리하는 W_SERIAL 태그 추가 (#14)
  • 따옴표, 괄호의 태그를 여는 태그(SSO)와 닫는 태그(SSC)로 세분화 (#104)
  • 문장 분리 시 인용문으로 안긴 문장을 인식하도록 수정(bab2min/kiwipiepy#84)
  • 랬/댔/잖 의 분석 정확도 개선
  • #110
  • 내장 오타 사전 typo.dict 추가. 내장 오타 사전의 로드 유무를 설정하는 옵션 BuildOption::loadTypoDict 추가

버그 수정

Kiwi v0.13.1

05 Jul 13:25
78d540d
Compare
Choose a tag to compare

버그 수정

  • AutoJoiner에 특정 문자열을 입력 시 크래시가 발생하는 버그 수정

Kiwi v0.13.0

27 Jun 17:23
Compare
Choose a tag to compare

신기능

  • 형태소 분석 과정에서 간단한 오타를 교정하는 기능 추가 (#76)
  • 장거리 형태소 간의 관계를 고려할 수 있는 SkipBigram 언어 모델 추가

버그 수정

  • 공백이 있음에도 이를 고려하지 않고 강제로 붙여서 해석하는 오류 수정(ex: 다 갔다)

Kiwi v0.12.0

10 May 17:24
316f782
Compare
Choose a tag to compare

신기능

  • 동사 '걷다'와 '묻다'의 모호성 해소 기능 추가
  • 동/형용사 형태소의 불규칙 활용 여부를 구분하는 자질 추가(#56)
    • kiwi::setIrregular, kiwi::clearIrregular, kiwi::isIrregular 함수를 통해 품사 태그에 불규칙 활용 여부 정보를 덧붙이거나 빼거나 확인할 수 있음
    • 불규칙 활용을 하는 동/형용사를 위한 품사 태그 VV-I, VA-I, VX-I, XSA-I 추가.
  • 형태소 분석 결과 중 각 형태소별 언어 모델 상의 점수를 확인할 수 있도록 kiwi::TokenInfoscore 멤버 변수 추가
  • 형태소를 결합하여 원본 텍스트를 복원하는 클래스인 kiwi::cmb::AutoJoiner 추가 (#54)
  • 언어 모델 정확도 추가 개선

버그 수정

  • 특정 상황에서 소수점이 포함된 숫자가 잘못 분석되는 오류 (#100)
  • 종결 어미 뒤에 조사가 있음에도 문장을 잘못 분리하는 오류 (#101)
  • 일부 결합된 형태소의 시작/끝 위치가 잘못 잡히는 오류
  • 있소, 잇따라, 하셔 등의 형태가 잘못 분석되는 오류