Skip to content

terratensor/conceptual-dictionary

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Словарь концептуальных терминов

Пользовательский сценарий — «ищу понятие-А, выдача должна содержать результаты для понятия-Б, понятия-В и далее»

Для этого необходимо составить концептуальный словарь — словарь ходовых концептуальных терминов, которые могут выступать синонимами или антонимами друг для друга, тем самым составляя с первичным словом одно целое, отвечающее общей тематике запроса. Словарь это список, где в одной строчке записаны слова или словосочетания, разделённые запятыми. Каждая новая строка — новая группа общеупотребительных терминов, которые соответствуют одному и тому же понятию или ожидается их. Например, при поиске «ДТСП» естественно ожидать в результатах выдачу по смежными понятиям «демон», «демонический» и так далее:

ДТСП, демон, демонический, демонизм
веган, вегетарианцы, вегане, веганствующий, мясоеды
ТСП, тип строя психики, строй психики, психический строй, психострой, психотип

Обсуждение: terratensor/svodd#112 (comment)

Файл wordforms.txt

Файл wordforms.txt используется как словарь форм, который понимает manticoresearch - технический файл.

Формат строгий: ключ > значение на отдельной строке без запятых.

Это файл подключен, результат его обработки можно посмотреть, выбрав в панели настроек поиска опцию «Словарь концептуальных терминов (тестирование)»

Обсуждение https://github.com/audetv/fct-search/issues/128#issue-1680132674

Некоторые наблюдения, правила оформления файлов manticore

  1. Не должно быть пропусков между строками в файле
  2. В файле alternateforms.txt значение это хэш md5 слова синонима

md5('gaga') = 811584043b844704c9bb9a6e99dd05d3