Лемматизатор для русского языка

Нейросетевой лемматизатор на базе архитектуры seq2seq

Используется sequence2sequence архитектура. Входное слово представляется цепочкой символов, которые упаковываются первой половиной рекуррентной нейросети в вектор фиксированной длины. Далее вторая половина нейросети на основе вектора слова строит цепочку символов леммы.

Обучение

Обучение по корпусу, состоящему из эталонных пар СЛОВО-ЛЕММА, реализовано в модуле Console/PyModels/CharSeq2Seq/src/word2lemma_train.py.

В ходе работы программа сохраняет параметры модели в папке data. Я выгрузил в репозиторий модель, предобученную на полном грамматическом словаре, поэтому можно сразу перейти ко второй программе в этом наборе.

Консольный лемматизатор

Тестовая часть лемматизатора реализована в модуле Console/PyModels/CharSeq2Seq/src/word2lemma_predict.py. Он загружает подготовленные первой программой данные и печатает леммы для вводимых с консоли слов. Для использования просто запустите скрипт в консоли и затем вводите слова по приглашению. Результат лемматизации будет печататься в консоли.

REST API лемматизатора

Простой REST API лемматизатора реализован с использованием пакетов flask и flask-restful. Я не могу рекомендовать данный способ для использования под нагрузкой без предварительного тестирования поведения нейросетевой части реализации, особенно с GPU backend. Тем не менее, в качестве стартовой точки это может быть полезно.

Дополнительная информация

[https://kelijah.livejournal.com/221921.html]

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
Console/PyModels/CharSeq2Seq/src		Console/PyModels/CharSeq2Seq/src
data		data
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Лемматизатор для русского языка

Нейросетевой лемматизатор на базе архитектуры seq2seq

Обучение

Консольный лемматизатор

REST API лемматизатора

Дополнительная информация

About

Releases

Packages

Languages

Koziev/word2lemma

Folders and files

Latest commit

History

Repository files navigation

Лемматизатор для русского языка

Нейросетевой лемматизатор на базе архитектуры seq2seq

Обучение

Консольный лемматизатор

REST API лемматизатора

Дополнительная информация

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages