Тема этой статьи не совсем обычна для нашего ресурса. Против обыкновения, в ней речь идёт не о провайдерах доступа или телекоммуникационном рынке, а о проблемах контент-провайдинга, поиска информации и будущем глобальной паутины. Нет-нет, нам не взбрело в голову внезапно сменить ориентацию нашего сайта. Просто сегодня мы представляем свой новый проект, над которым наша маленькая команда работала более года. Как ни смешно, речь идет о новой поисковой системе, не имеющей аналогов.
«Ищут пожарные, ищет милиция
»
Году в 95-м, когда русскоязычная паутина только-только начиналась, её будущее представлялось в довольно радужных тонах. Еще немного, еще чуть-чуть, и информация по всем интересующим вопросам будет доступна по нескольким нажатиям клавиш, надо только подождать, когда серьезные учреждения и одиночки-энтузиасты оцифруют и выложат в открытый доступ все информационные сокровища человечества.
По мере роста объема доступной информации ориентироваться в ней стало все сложнее, но тут как раз подоспели поисковые системы, сильно облегчившие жизнь. Бывали, правда, и с ними ляпсусы, скажем, по ключевому слову «комета» и «Альтависта», и «Рамблер» выдавали чудовищный винегрет ссылок, среди которых попадались и небесные тела, и катера на подводных крыльях, и многочисленные фирмы и фирмочки, гордо носящие одноименное название. Однако Сеть была еще маленькой, и пройтись по этим ссылкам, найдя, в итоге, искомое, требовало пока еще разумного времени.
С течением времени Сеть росла, количество доступных в ней документов увеличивалось лавинообразно, сейчас, например, «Яндекс» находит по слову «комета» более миллиона страниц, и отыскать во всем этом потоке нужный документ стало для живого человека делом совершенно невозможным. Поисковые системы взяли на вооружение понятие «релевантности», то есть стали скармливать нам не то, что мы ищем, а то, что, по мнению авторов алгоритмов, мы должны искать. Подтянувшиеся поисковые оптимизаторы внесли свою долю хаоса, проталкивая на верхние позиции своих коммерческих заказчиков. Поисковики, в свою очередь, принялись на ходу менять алгоритмы сортировки, изобретать индексы цитирования и пейджранки, по первому же косому взгляду банить владельцев подозрительных ресурсов, и найти что-то в начавшейся чехарде стало и вовсе невозможно.
Нет-нет, для большинства, что называется, бытовых ситуаций поисковики и сегодня выдают вполне сносные результаты. Если вас заинтересует недавний политический скандал, при грамотно сформулированном запросе вы получите обойму новостей, в которых сообщается более или менее одно и то же. Если ищете, где купить пластиковые окна или путевку в Анталию, на вас вывалят ушат сайтов, принадлежащих стекольщикам и туристическим агентствам. То, что вас интересует, вы найдете, а что ваши деньги достанутся не одной компании, а другой, или что одна интернет-газета покажет вам свои баннеры, а другая нет, то это, все же, проблемы не столько ваши, сколько владельцев проиндексированных поисковиком сайтов.
Однако существует целый ряд ситуаций, когда поисковики оказываются практически бесполезными. В первую очередь, когда вам необходимы знания в той или иной области, будь то особенности функционирования технологии ADSL или тенденции развития московского рынка доступа за последние полгода. По сколько-нибудь обыденному набору ключевых слов поисковик вывалит что угодно, газетные новости, рекламный мусор, растиражированный на десятках зеркал беспомощный реферат туповатого студиозуса. Во всём этом потоке пены вы не найдете только того, что вам нужно, единственной статьи, толково и внятно рассказывающей о том, что, собственно, вас и интересует. Нет-нет, где-то там, неизвестно в какой по счету сотне результатов, эта статья наверняка будет, да вот только вы ее не найдете.
При этом поисковый мусор будет серьезной, но отнюдь не главной проблемой. В конце концов, если вы запасетесь терпением, то, возможно, до искомой статьи и доберетесь. Беда в том, что «доберетесь» не значит «найдете». Ведь вам надо суметь откуда-то понять, что именно эта ссылка среди тысяч других и есть та, что вам нужна, причем понять, не тратя время на чтение каждой из них. Ведь в реферате троечника и статье эксперта используются одни и те же слова, а интеллектом, способным отличать одно от другого, ни одна поисковая система не будет обладать в обозримом будущем. На это, увы, способен лишь человек, и то не всякий.
Разумеется, в поисках упорядоченных знаний логично было бы обратиться к энциклопедиям, и зачастую это могло бы решить проблему. Зачастую, но далеко не всегда. Конечно, если вам надо узнать расстояние до Луны или атомную массу бериллия, ответ на свой вопрос вы наверняка получите, благо, ни то, ни другое за последний десяток лет не изменилось. Однако есть целый ряд областей, в которых фундаментальные энциклопедии попросту бесполезны, цикл их обновления слишком продолжителен, чтобы угнаться, например, за стремительным развитием информационных технологий или молниеносной динамикой рынков. Вдобавок, фундаментальные энциклопедии, по самому своему статусу, содержат только выверенные и подтвержденные сведения. А значит, неизбежно отстают от переднего края в любой области, того самого переднего края, где ломаются копья, и еще совершенно неизвестно, кто в результате окажется прав. При поиске информации на подобные темы мы предпочли бы ознакомиться с противоположными точками зрения, чтобы сопоставить их, проанализировать и сделать собственные выводы. Но такой возможности фундаментальные энциклопедии нам, увы, не предоставляют.
И уж, тем более, нам не помогут в этом разного рода википедии, реагирующие на окружающую действительность куда как быстрее, но притом не дающие ни малейшей уверенности в достоверности опубликованной там информации, а зачастую сочиняемые теми самыми студентами-троечниками.
То, что нам нужно, публикуется в журналах, на разнообразных специализированных сайтах, сайтах компаний и учреждений, но эти публикации надо еще как-то суметь найти. Можно попробовать сделать это в одной из интернет-библиотек, таких, как библиотека I2R или библиотека «Махаона». Но и тут нас поджидают засады. Во-первых, эти сетевые библиотеки представляют собой лишь слегка рубрицированные свалки текстов, найти в которых что-то нужное не так уж и просто. Но главная их проблема родимое пятно всех традиционных интернет-библиотек, фактическая противоправность. Попытки договориться о републикации каждой конкретной статьи заведомо обречены на провал, где-то и правообладателя-то уже нет (но авторское право действует), где-то воспротивится издатель, не желающий лишаться рекламных доходов, а зачастую правообладатели попросту поленятся ввязываться во всю эту суету, не сулящую им ни копейки прибыли. Поэтому такая библиотека, если она попытается действовать сугубо легально, заведомо будет грешить неполнотой. А библиотека, претендующая на полноту, окажется заведомо нелегальной. Причем если до последнего времени разговоры о легальности сетевых библиотек лежали, преимущественно, в морально-этической плоскости, то сейчас, в свете предстоящего вступления в ВТО и недавних судебных процессов, в дискуссиях на данные темы с готовностью примет участие прокуратура.
Таким образом, если нам нужно найти свежую, качественную и авторитетную информацию, относящуюся к динамичной и быстроменяющейся предметной области, сколько-нибудь адекватного инструмента для ее поиска попросту не существует. И когда перед нами встала задача собрать и обобщить подобную информацию по Интернету, телекоммуникациям и смежным областям на нашем сайте, нам пришлось такой инструмент изобретать. Библиотеку, архив и поисковую систему в одном лице, не имеющую, насколько нам известно, аналогов не только в Рунете, но и за его пределами.
«
И, наконец, построили!..»
Работа над этим проектом к моменту его запуска продолжалась уже более года, первые наброски технического задания датируются февралем 2006 г., и наиболее трудоемкой и сложной задачей было не программирование и не наполнение, а подробнейшая проработка концепции и внутренней логики. Нам надо было избежать описанных выше принципиальных недостатков ранее существовавшего инструментария, и суметь решить проблемы, с которыми он не мог справиться.
Нам необходимо было обеспечить достаточную полноту архива, что невозможно сделать, получая предварительное согласие каждого правообладателя, но избежать при этом возможного конфликта с законом, неизбежного при самовольной републикации материалов. Значит, мы создаем поисковую систему, которая позволяет находить нужные документы и отсылает посетителя непосредственно на те сайты, где они и были изначально опубликованы. В результате никакой контрафактной перепечатки не происходит, интересы правообладателей не страдают, а владельцы сайтов, где были опубликованы проиндексированные статьи, получают дополнительных посетителей и благополучно откручивают свои баннеры. И если, паче чаяния, включенный в библиотеку документ сам окажется контрафактной перепечаткой, то голова об этом болеть будет не у нас, а у пиратов, ее стибривших.
Наша библиотека должна носить фундаментальный характер, потеря значимых документов недопустима, а ситуация, когда тот или иной сайт прекращает свое существование или напрочь меняет содержание и внутреннюю структуру, в Интернете не так уж и редка. Значит, при индексировании документа автоматически создается архивная копия, которая не выкладывается для доступа, это было бы нарушением закона, а сохраняется в исследовательских целях. Если сайт, на котором был опубликован проиндексированный документ, прекратит свое существование, документ не окажется безвозвратно утраченным. У нас будет возможность связаться с правообладателями, урегулировать с ними все правовые вопросы и воспроизвести этот документ на нашем сайте, поправив ведущую на него ссылку.
Нам не нужна абсолютная полнота индексации; более того, абсолютная полнота индексации была бы нам вредна, лишь создавая информационный шум. Если посетителю, интересующемуся технологией ADSL, выдать все без малого четыре миллиона документов, содержащих эту аббревиатуру, такой результат окажется совершенно бесполезным. Напротив, нам надо отобрать пусть сравнительно немногие, но интересные и качественные публикации, содержащие действительно заслуживающую внимания информацию. Заниматься подобным отбором компьютеры не умеют. А значит, статьи для индексирования отбираются живыми людьми, достаточно хорошо разбирающимися в предмете, чтобы отделить зерна от плевел.
Правильно заданный вопрос сам по себе уже половина ответа. К сожалению, именно при поисках такого рода документов мы зачастую не знаем, как было бы лучше сформулировать поисковый запрос. Мы можем не знать имен авторитетных в нужной нам теме экспертов, названий компаний, работающих на интересующем нас рынке, или каких-то специальных терминов. Мы просто хотим ознакомиться с публикациями на тему законодательного регулирования в области связи или организации работы техподдержки компании-провайдера. А значит, необходим подробный многоуровневый тематический рубрикатор, который можно было бы использовать при поиске. И, разумеется, этот рубрикатор должен быть достаточно гибким и иметь возможность развития, ведь новые технологии и новые рынки появляются то и дело.
Хотя системы тематической классификации текстов и добились определенных, порой довольно заметных успехов, с живым человеком сравниться они все равно не в состоянии. А значит, классификация индексируемого документа также должна осуществляться живыми людьми.
Разумеется, любая уважающая себя библиотека располагает не только тематическим, но и алфавитным каталогом, являющимся мощнейшим инструментом поиска в традиционном библиотечном деле. А значит, нам необходимо иметь возможность поиска по именам авторов, изданию-публикатору, дате публикации.
Поскольку изучение статей, посвященных телекоммуникациям и ИТ, нередко связано с поиском информации, относящейся к тем или иным игрокам рынка, логично было бы предоставить пользователю возможность поиска по именам персон и названиям компаний, упоминаемых в тексте.
Даже отобранные вручную статьи имеют неодинаковую ценность, среди них попадаются как этапные работы, так и просто добротные информашки. Значит, рецензент, вносящий публикацию в каталог, должен иметь возможность выставить свою оценку проиндексированной работе, а пользователь получить результаты, отсортированные в соответствии с этой оценкой, чтобы ознакомиться, в первую очередь, с наиболее стоящими из них. Кроме того, неплохо иметь возможность сортировать результаты по популярности проиндексированных статей, а также по времени поступления в библиотеку, что может быть полезно для посетителей, интересующихся новинками.
Наконец, даже при самой хитроумной комбинации поисковых условий, в результатах поиска по популярным темам могут оказаться многие десятки, а потенциально и многие сотни документов. Значит, чтобы избавить пользователя от необходимости внимательно изучать их все, каждую проиндексированную работу следует сопровождать краткой рецензией, составленной, опять-таки, живым человеком. А заодно предусмотреть и возможность поиска по текстам этих рецензий.
Если собрать воедино перечисленные выше условия, получается довольно гибкая и мощная поисковая система, в работе которой человек и машина делят обязанности таким образом, чтобы каждый из них наиболее успешно справлялся со своей частью задачи. Система, заточенная под поиск информативных публикаций на профессиональные темы в условиях нечеткости исходной информации. Скажем, припомнив, что, вроде бы, была в свое время такая статья на интересующую тему, можно ввести запрос, по которому поисковик выдаст аннотированные ссылки на все статьи Александра Милицкого, опубликованные в течение 2004 г. в журнале «Компьютерра», посвященные теме широкополосного доступа, и при этом содержащие упоминание компании «МТУ-Интел». Или все публикации о проблеме авторских прав, в которых упоминались бы компания Microsoft и персона Александр Поносов. Возможности весьма широки.
В настоящее время проект только-только запущен, мы ведем его доводку, подстройку поисковой логики, доработку пользовательского интерфейса. Мы будем признательны за отзывы и замечания, касающиеся работы системы, удобства ее использования, построения тематического рубрикатора и вообще всех аспектов этого проекта, а также за рекомендации по его дальнейшему развитию. Их можно высказать на нашем форуме.