Электронная библиотека
(формирование полнотекстовых баз данных электронных документов и их использование с помощью ЭК)
Электро́нная библиоте́ка — упорядоченная коллекция разнородных электронных документов (в том числе книг), снабженных средствами навигации и поиска. Может быть веб-сайтом, где постепенно накапливаются различные тексты (чаще литературные, но также и любые другие, вплоть до компьютерных программ) и медиафайлы, каждый из которых самодостаточен и в любой момент может быть востребован читателем. Электронные библиотеки могут быть универсальными, стремящимися к наиболее широкому выбору материала (как Библиотека Максима Мошкова или Либрусек), и более специализированными, как Фундаментальная электронная библиотека или проектСетевая Словесность, нацеленный на собирание авторов и типов текста, наиболее ярко заявляющих о себе именно в Интернете.
Электронные библиотеки следует отличать от смежных структурных типов сайта, особенно литературного. В отличие от литературного журнала, родившегося как тип печатного издания, но успешно и без принципиальных изменений структуры перебравшегося в Интернет, электронная библиотека не подразделяется на выпуски и обновляется перманентно по мере появления новых материалов. В отличие от сайта со свободной публикацией, электронная библиотека, как правило, подбирается координатором проекта по своему усмотрению и, что гораздо более важно, не предусматривает создания вокруг публикуемых текстов коммуникативной среды. При этом в практике отдельных Интернет-проектов могут возникать и гибридные формы и промежуточные решения: так, открытие в электронной библиотеке Сетевая Словесность гостевых книг для каждого публикуемого автора в известной степени вносит в проект элемент формирования коммуникативной среды, состоящей из авторов и читателей, что для электронных библиотек вообще нехарактерно.
С точки зрения профессиональной информационной деятельности одной из главных и наиболее ценных составляющих всего совокупного потенциала Интернет являются электронные библиотеки. Само словосочетание "электронная библиотека" относительно новое и еще не имеет общепринятого научного толкования. Под электронными (цифровыми, виртуальными) библиотеками разные исследователи понимают различное содержание: начиная с простого перечня файлов на любом компьютере и заканчивая всем содержательным наполнением Интернет. Электронные библиотеки можно определить как упорядоченные коллекции разнородных электронных документов, снабженные средствами навигации и поиска. Подобное толкование позволяет выделить столь важную отличительную черту электронных библиотек как обязательное наличие заданной структуры и навигационно-поисковых средств, обеспечивающих ориентирование в документах. Это дает возможность исключить из понятия "электронная библиотека" беспорядочные файловые массивы, не объединенные единой иерархической структурой и системой индексации. Термин "разнородные" позволяет отделить электронные библиотеки от архивов периодических изданий, в которых представлены выпуски лишь одного издания.
Полнотекстовые базы данных и средства формирования запросов в них
В настоящее время в автоматизированных современных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название - полнотекстовые базы данных (full-text system) или текстовые базы данных.
Одной из главных задач на современном этапе является создание электронного каталога (ЭК) библиотеки, электронных тематических и проблемно-ориентированных баз данных (БД), которые значительно повышают оперативность библиографического поиска информации. Полнотекстовые базы данных используются для хранения и поиска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной документации.
Работа по созданию полнотекстовых баз трудоемкая, требует участия квалифицированных кадров. Только аналитическая роспись занимает около 300 часов работы библиографа, чуть меньше отводится на заведение записей в электронный каталог, остается обработка электронных версий трудов и организация ссылок на полные тексты. Задача библиотеки – оперативно предоставлять информацию читателям, поэтому перед библиотекой остро стоит вопрос автоматизации этого процесса. Проблема может быть решена на уровне OLE-автоматизации Word.
В информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информационных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов. Во всех системах для поиска по сочетанию терминов используются логические функции AND (И), OR (ИЛИ), NOT (НЕ), соединяющие ключевые слова информационного запроса. При формировании запросов в полнотекстовых базах данных желательно учитывать не только логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные средства. Например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по образцу. При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего диалог с пользователем.
Система формирования полнотекстовых баз данных ориентирована на комплектование, соответствующую обработку и последующее использование электронных книг, журналов и газет (2). В качестве первоочередного задания рассматривается создание электронных справочников и энциклопедий, которым предстоит играть в автоматизированном банке данных роль баз знаний. Источниками формирования полнотекстовых баз данных могут являться: электронные версии печатных изданий, имеющиеся в издательствах Украины; тексты публикаций, распространяемые по компьютерной сети EPUBNET; имеющиеся базы данных на оптических дисках и др.
Наполнение полнотекстовых баз данных производится двумя способами. Первый заключается в сканировании печатных оригиналов и получении электронных копий документов, выполненных в большинстве случаев в формате PDF. Эти документы воспроизводятся (читаются) с использованием бесплатно распространяемой программы Adobe Acrobat, которую можно без труда получить из Интернет или найти на большинстве выпускаемых в настоящее время компакт-дисков (в этом случае диск маркируется логотипом Adobe Acrobat). Сканирование печатных оригиналов применяется при оцифровывании существующих тематически и логически законченных собраний, хранящихся, как правило, в фондах крупнейших библиотек или архивов. При этом масштабы и темпы оцифровки документальных массивов в рамках коммерческих проектов в разных странах дают все основания полагать, что уже в ближайшие годы будет оцифровано большинство значимых для человечества материалов. Для пользователей станет принципиально возможным получить доступ к любым источникам - от германских старопечатных книг XVI века до заметки в завтрашнем номере японской газеты.
Второй метод - покупка электронных копий книг, газет или журналов непосредственно в издательствах. По предварительному договору издательства передают электронную версию документа (чаще всего готовый оригинал-макет) поставщику и получают определенный процент от средств, полученных за обращение к поставленным файлам. Загрузка документов в систему осуществляется, как правило, в момент опубликования печатного оригинала или даже ранее. После физической загрузки в базу информационный массив индексируется, после чего электронные документы становятся доступными для поиска и выгрузки. Подобный способ "комплектования" применяется при работе с современными периодическими изданиями и сообщениями агентств новостей.
Профессиональные цифровые библиотеки, в отличие от бесплатных коллекций, отличает намного более четкая политика в отборе источников, высокая степень полноты и оперативность актуализации материалов. Грамматические ошибки крайне редки, за исключением случаев, когда документы сохраняются не в PDF, а в HTML-формате.
Как и большинство бизнес-проектов, полнотекстовые базы данных обеспечивают для клиентов высокий уровень сервиса. Поисковый механизм позволяет осуществлять многоаспектный поиск с возможностью сочетания данных из разных полей. Разыскание может осуществляться по отдельным словам, словосочетаниям и точным фразам. Результаты поиска выдаются в виде списка библиографических записей с указанием всех необходимых элементов. Существует возможность формирования из общего перечня списка релевантных документов.
Электронные библиотеки, проблемы авторского права и их решение
Многие электронные библиотеки публикуют литературные произведения без предварительного согласия авторов, и хотя в некоторых из них по первому требованию автора его тексты снимаются с сайта, де-юре они нарушают законы об авторском праве.
Что касается оцифровки библиотечных фондов, то отношение к этому закону двоякое. С одной стороны, он действительно утверждает право библиотек использовать достижения современных информационных технологий и переводить имеющиеся у них фонды в цифровую форму. С другой стороны, последний абзац закона возвращает нас к четвертой части Гражданского кодекса, где сказано, что оцифровка должна осуществляться только по договоренности с автором. А это для нас головная боль. Библиотека не в состоянии сама заключать договора с авторами. Во всей мировой библиотечной практике этим занимаются специальные организации. Таким образом, прекрасно, что библиотекам, наконец, подтвердили их право на оцифровку их фондов. В мировой практике даже есть устоявшийся термин «библиотечные исключения». В США, Европе библиотеки, реализуя конституционное право граждан на получение информации, имеют право переводить в цифровую форму свои фонды, не спрашивая разрешения у авторов. Разумеется, это делается (и это тоже устоявшийся термин) «на принципе добропорядочного и честного использования». Это значит, что речь идет о предоставлении оцифрованной информации только в научных, культурных и образовательных целях, а не для коммерческой выгоды. Если речь идет о коммерческой выгоде, то, уже без всяких исключений, надо договариваться с автором.