FLUIdS
Что нового


Готовится версия 4.0

После более чем полугодового перерыва возобновилась работа над совершенствованием поисковой системы, результатом которой стал выпуск альфа-версии 4.0. По сравнению с 3.x в систему внесен целый ряд архитектурных изменений:

К сожалению, из-за недостатка свободного времени у разработчика в 4.0 реализовано не все, что планировалось, поэтому первые три подверсии (4.0-4.2) будут отведены под следующие цели:

Версия 4.0a8 в исходных текстах доступна с Web сервера SbNet по адресу http://www.sbnet.ru/soft/fluids/dist/ В ней пока отсутствует документация и исполняемые модули. Альфа версии присущи и другие недостатки, но на то она и alpha :). Выпуск betta версии планируется на конец февраля. В связи с допущеной мной идеологической ошибкой формат индексного файла в ней будет изменен (и его размер для того же объема индексируемой информации должен возрасти...)


Версия 3.11.4

Это заключительная версия серии 3.x, главным образом фиксирующая обнаруженные ошибки в программном коде. Помимо этих исправлений в конфигурационный файл CGI модуля в раздел [main] введена дополнительная директива BodyTagAddition для задания дополнительных аттрибутов в теге <BODY> генерируемых страниц.


Версия 3.11.3

В этой версии:


Версия 3.11.2

В этой версии продолжено совершенствование профильных файлов, в результате:

Помимо этого:


Версия 3.11.1

В этой версии:


Версия 3.11

Для CGI модуля введен ряд усовершенствований, позволяющих более тонко настроить его выход под нужды администраторов системы:

Помимо этого:


Версия 3.10.4

В этой версии:


Версия 3.10.3

Почти все внесенные изменения в этой версии касаются CGI модуля:


Версия 3.10.2

Как показала практика, специальное обслуживание стоп-слов в локальных индексах и отбрасывание коротких слов при индексации не имеют под собой реальной почвы (размер индексного файла сокращается незначительно, менее чем на 10%, а неудобства создаются большие - никогда не знаешь заранее, отброшено данное ключевое слово при индексации или же просто отсутствует в индексируемых текстах). Поэтому было решено назначить начальные установки в исходных текстах FLUIdS таким образом, чтобы индексировались ВСЕ слова, и, соотвественно, чтобы был возможен поиск по ЛЮБЫМ разумным ключевым словам.

В соответствии с новой стратегией начальные установки были переопределены следующим образом:

Помимо этого, если в запросе в качестве ключевого слова встретилось стоп-слово, то теперь оно игнорируется. Причина такому решению - нулевой результат поиска, если стоп-слово связывалось с остальными ключевыми словами операцией AND.

Дополнительно в конфигурационный файл индексации введены две новые директивы: MinWordLength и MaxWordLength, являющиеся аналогами параметров компиляции MIN_WORD_LENGTH и MAX_WORD_LENGTH.

Другие внесенные изменения:


Версия 3.10.1

В конфигурационный файл индексации добавлены три новые директивы:

Помимо этого, директивы IgnoreFilesLimit и IgnorePercentLimit перенесены из конфигурационного блока main в блок words.

В этой версии значительно расширен список стоп-слов, принятый по умолчанию. Теперь он имеет следующий вид:

Английские слова:
a, all, an, and, are, can, could, did, do, for, from, had, have, it, may, not, of, that, the, this, was, will, with, you, your;

Русские слова:
в, на, не, но, при, по.

Обновился и список ValidWords:

Английские слова:
95, 98, ar, bg, c, cc, cd, cp, dd, ed, h1, h2, h3, h4, h5, h6, fg, id, im, ip, ln, ls, mc, mv, nc, ng, nt, od, os, pr, re, rm, sh, tr, vi, wc;

Русские слова:
ад, ом, си, уж, ус, юг, яд, яndex.

Внесены следующие исправления:

  • По окончании процесса индексации в индексном файле теперь сохраняются только те заданные директивой CommonWords стоп-слова, которые реально встретились в текстах индексируемых файлов (ранее сохранялся весь список).
  • Для кодировки koi8-r, в которой русские буквы расположены в таблице символов не в алфавитном порядке, исправлено сравнение скобочных метасимволов вида [б-г] в шаблонах с русскими буквами.
  • По недоразумению присутствовало ограничение на число генераций имен временных файлов (могло быть сгенерировано только 1000 имен). Подобное ограничение могло привести к тому, что прилагаемая к FLUIdS утилита при обработке файлового дерева на тысячном файле прекратила бы свое выполнение с ошибкой "cann't generate name for the temporary file". Сейчас подобное ограничение снято.

  • Версия 3.10

    В этой версии очередной (и, наверное, последний в серии 3.x) раз поменялся формат индексного файла. Это сделано по нескольким соображениям, но главное из них - это возможность совместного использования индексных файлов, созданных на одной платформе, но в разных операционных средах (в частности, в UNIX и MS Windows для платформы Intel). Оказалось, что кроме различных кодировок создаваемых индексов, существовало разночтение заголовка индексных файлов. В новой версии, таким образом, вводится 'полууниверсальный' формат индексных файлов (это шаг в сторону версии 4.0) плюс возможность поиска по индексам, находящимся в разных кодировках. Однако объединение двух разнокодировочных индексов (это делает программа flmerge) пока не возможно.

    В новой версии необходимо корректно определить рабочую кодировку FLUIdS, задаваемую параметром компиляции FLUIDS_LOCAL_CHARSET, а также соответствующий его значению APPLY_CYR_* (файл ./src/cfgrus.h). Если же последний не задан, то исполняемые модули FLUIdS выдадут ошибку: "Неизвестная кодировка xxx", где xxx - значение вышеупомянутого параметра компиляции FLUIDS_LOCAL_CHARSET. Все это не важно, если отключена поддержка русского языка.

    Помимо этого в версии 3.10 переименованы некоторые параметры вызова (или их значения) CGI модуля (с целью уменьшения числа символов в их именах):

    Старое
    имя/значение
    Новое
    имя/значение
    what w
    form frm
    search sch
    conf cfg
    qform qf
    eform ef
    iform if
    terse trs
    charset cs
    query q

    В числе других изменений:


    Версия 3.9.2

    Главное отличие этой версии от предыдущей - возможность компиляции и эксплуатации системы FLUIdS в среде MS Windows 95/NT. Для этого в дистрибутивную поставку FLUIdS добавлен соответствующий make-файл, разработанный для компилятора Borland C 5.02 (сейчас рассматривается возможность адаптации make-файла под Visual C++ 5.0), и внесены дополнительные изменения в исходный код системы, а именно:

  • Учтены особенности файловых систем, используемых в MS Windows (VFAT или NTFS):
    • символом-разделителем имен поддиректорий служит обратный слэш, а не прямой;
    • имена файлов не зависят от регистра составляющих их букв;
    • полное имя файла может быть записано в виде c:file.ext, без разделяющего драйв и имя файла слэша.
  • Если для CGI модуля не определена переменная окружения SCRIPT_FILENAME, то она определяется из аргументов вызова fluids.exe.
  • Для желающих использовать FLUIdS в среде MS Windows 95/NT специально создан отдельный дистрибутив fluids-cur.zip (упакован с помощью pkzip), в котором все файлы находятся в кодировке windows-1251, а начальные установки определяют рабочую кодировку FLUIdS как "win".

    Помимо этого, в FLUIdS введена новая утилита repl, помогающая при процедуре перекодировки исходных текстов, в результате чего эта процедура значительно упростилась.

    Из других изменений можно отметить следующие:


    Версия 3.9.1

    Новое в этой версии:


    На главную страницу valera@sbnet.ru