stemming doesn't works correctly [FIXED] 23.01.2004
abstracts contain duplicated sentences! [FIXED] 27.01.2004 there is still duplication with title ! [FIXED] 4.02.2004 duplication with title also has been removed
0.5.4 - indexer eats memory [FIXED] 29.01.2004
request parsers burps on nontext symbols in phrases [FIXED] 5.02.2004
don't skip when grouping and title is empty [FIXED] 21.02.2004
Not fixed yet
MD5-склейка работает не совсем так, как нужно!
подсветка не работает для фраз с нетекстовыми символами внутри
TODO
Done
<br> stops sentence ? [CHANGED] 23.01.2004 слегка изменил алгоритмы разбора HTML на предложения. С одной стороны, стал корректно отрабатываться случай "покупайте Привет! лучшие соки в мире" (здесь ! не обрывает предложение, т.к. после него идет маленькая буква). С другой стороны HTML тэги типа p и br преобразуются при парсинге в ' . ' (было '. '), что вызывает гарантированное окончание предложения.
утилита для выдачи слов обратного индекса [DONE] 25.01.2004 модифицировал dump_index для выдачи разнообразной статистики по обратному индексу
склеивание документов с одного сайта по MD5 [DONE] 24.01.2004 Документы с одного сайта теперь склеиваются. Для всех склеенных документов ранг считается отдельно (чтобы показывать первым наиболее часто цитируемый документ), но при подсчете весов ранги суммируются.
Добавить сравнение длин слов-кандидатов при равных весах похожести по триграммам. [DONE] 29.01.2004 выпущена новая версия libsmlm 0.0.3
[NEW] Слова с символами -, _ (дефис и подчеркивание) теперь добавляются в индекс триграмм
Switch astro/msu and pgsql to 0.5.x
Add support for word aliases (supernovae = сверхновая) 21.02.04 -- первый вариант написан
отказ от выполнения запроса при превышении заданного предела загрузки системы