Skip to content

Latest commit

 

History

History
56 lines (40 loc) · 1.86 KB

README.md

File metadata and controls

56 lines (40 loc) · 1.86 KB

Ramonak

CI PyPI - Version PyPI - Python Version

Універсальная бібліятэка па працы з тэкстам на беларускай мове для Python.

Як усталяваць?

Напішыце ў вашым тэрмінале:

pip install ramonak

Або ў Google Colab:

!pip install ramonak

Як карыстацца?

!pip install ramonak -U

import ramonak
from ramonak.tokenizer import word_tokenize
from ramonak.stemmer import FlexionStatStemmer
from ramonak.stopwords import clean_stop_words
from ramonak.punct import remove_punct


text = "Яны iшлi ўдвух выкатанаю нячутна-пругкiмi веласiпедамi сцежкаю ля шэрых нямогла нахiленых да вулiцы платоў...".lower()
tokens = remove_punct(word_tokenize(text))
tokens = clean_stop_words(tokens)

stemmer = FlexionStatStemmer()
print(
      stemmer.stem_words(tokens)
    )

Больш падрабязную дакументацыю вы можаце знайсці на сайце https://alex-rusakevich.github.io/ramonak/.

Дарожная карта

  • Такенізацыя па словам
  • Такенізацыя сказаў
  • Спісак стоп-слоў
  • Просты стэмер, заснаваны на статыстыцы флексій
  • Менеджар пакетаў з дадзенымі
  • Стэмер Портэра
  • Леммацізатар
  • Марфалагічны аналізатар