Libri legendi | Авторские статьи | Независимый обзор провайдеров

Тема этой статьи — не совсем обычна для нашего ресурса. Против обыкновения, в ней речь идёт не о провайдерах доступа или телекоммуникационном рынке, а о проблемах контент-провайдинга, поиска информации и будущем глобальной паутины. Нет-нет, нам не взбрело в голову внезапно сменить ориентацию нашего сайта. Просто сегодня мы представляем свой новый проект, над которым наша маленькая команда работала более года. Как ни смешно, речь идет о новой поисковой системе, не имеющей аналогов.

«Ищут пожарные, ищет милиция…»

Году в 95-м, когда русскоязычная паутина только-только начиналась, — её будущее представлялось в довольно радужных тонах. Еще немного, еще чуть-чуть, — и информация по всем интересующим вопросам будет доступна по нескольким нажатиям клавиш, — надо только подождать, когда серьезные учреждения и одиночки-энтузиасты оцифруют и выложат в открытый доступ все информационные сокровища человечества.

По мере роста объема доступной информации ориентироваться в ней стало все сложнее, — но тут как раз подоспели поисковые системы, сильно облегчившие жизнь. Бывали, правда, и с ними ляпсусы, — скажем, по ключевому слову «комета» и «Альтависта», и «Рамблер» выдавали чудовищный винегрет ссылок, среди которых попадались и небесные тела, и катера на подводных крыльях, и многочисленные фирмы и фирмочки, гордо носящие одноименное название. Однако Сеть была еще маленькой, и пройтись по этим ссылкам, найдя, в итоге, искомое, требовало пока еще разумного времени.

С течением времени Сеть росла, количество доступных в ней документов увеличивалось лавинообразно, — сейчас, например, «Яндекс» находит по слову «комета» более миллиона страниц, и отыскать во всем этом потоке нужный документ стало для живого человека делом совершенно невозможным. Поисковые системы взяли на вооружение понятие «релевантности», — то есть стали скармливать нам не то, что мы ищем, а то, что, по мнению авторов алгоритмов, мы должны искать. Подтянувшиеся поисковые оптимизаторы внесли свою долю хаоса, проталкивая на верхние позиции своих коммерческих заказчиков. Поисковики, в свою очередь, принялись на ходу менять алгоритмы сортировки, изобретать индексы цитирования и пейджранки, по первому же косому взгляду банить владельцев подозрительных ресурсов, — и найти что-то в начавшейся чехарде стало и вовсе невозможно.

Нет-нет, — для большинства, что называется, бытовых ситуаций поисковики и сегодня выдают вполне сносные результаты. Если вас заинтересует недавний политический скандал, при грамотно сформулированном запросе вы получите обойму новостей, в которых сообщается более или менее одно и то же. Если ищете, где купить пластиковые окна или путевку в Анталию, — на вас вывалят ушат сайтов, принадлежащих стекольщикам и туристическим агентствам. То, что вас интересует, вы найдете, а что ваши деньги достанутся не одной компании, а другой, или что одна интернет-газета покажет вам свои баннеры, а другая нет, — то это, все же, проблемы не столько ваши, сколько владельцев проиндексированных поисковиком сайтов.

Однако существует целый ряд ситуаций, когда поисковики оказываются практически бесполезными. В первую очередь, — когда вам необходимы знания в той или иной области, — будь то особенности функционирования технологии ADSL или тенденции развития московского рынка доступа за последние полгода. По сколько-нибудь обыденному набору ключевых слов поисковик вывалит что угодно, — газетные новости, рекламный мусор, растиражированный на десятках зеркал беспомощный реферат туповатого студиозуса. Во всём этом потоке пены вы не найдете только того, что вам нужно, — единственной статьи, толково и внятно рассказывающей о том, что, собственно, вас и интересует. Нет-нет, — где-то там, неизвестно в какой по счету сотне результатов, эта статья наверняка будет, — да вот только вы ее не найдете.

При этом поисковый мусор будет серьезной, но отнюдь не главной проблемой. В конце концов, если вы запасетесь терпением, то, возможно, до искомой статьи и доберетесь. Беда в том, что «доберетесь» — не значит «найдете». Ведь вам надо суметь откуда-то понять, что именно эта ссылка среди тысяч других — и есть та, что вам нужна, — причем понять, не тратя время на чтение каждой из них. Ведь в реферате троечника и статье эксперта используются одни и те же слова, а интеллектом, способным отличать одно от другого, ни одна поисковая система не будет обладать в обозримом будущем. На это, увы, способен лишь человек, — и то не всякий.

Разумеется, в поисках упорядоченных знаний логично было бы обратиться к энциклопедиям, и зачастую это могло бы решить проблему. Зачастую, — но далеко не всегда. Конечно, если вам надо узнать расстояние до Луны или атомную массу бериллия, — ответ на свой вопрос вы наверняка получите, благо, ни то, ни другое за последний десяток лет не изменилось. Однако есть целый ряд областей, в которых фундаментальные энциклопедии попросту бесполезны, — цикл их обновления слишком продолжителен, чтобы угнаться, например, за стремительным развитием информационных технологий или молниеносной динамикой рынков. Вдобавок, фундаментальные энциклопедии, по самому своему статусу, содержат только выверенные и подтвержденные сведения. А значит, — неизбежно отстают от переднего края в любой области, — того самого переднего края, где ломаются копья, и еще совершенно неизвестно, кто в результате окажется прав. При поиске информации на подобные темы мы предпочли бы ознакомиться с противоположными точками зрения, чтобы сопоставить их, проанализировать и сделать собственные выводы. Но такой возможности фундаментальные энциклопедии нам, увы, не предоставляют.

И уж, тем более, нам не помогут в этом разного рода википедии, реагирующие на окружающую действительность куда как быстрее, но притом не дающие ни малейшей уверенности в достоверности опубликованной там информации, а зачастую сочиняемые теми самыми студентами-троечниками.

То, что нам нужно, публикуется в журналах, на разнообразных специализированных сайтах, сайтах компаний и учреждений, — но эти публикации надо еще как-то суметь найти. Можно попробовать сделать это в одной из интернет-библиотек, — таких, как библиотека I2R или библиотека «Махаона». Но и тут нас поджидают засады. Во-первых, эти сетевые библиотеки представляют собой лишь слегка рубрицированные свалки текстов, найти в которых что-то нужное не так уж и просто. Но главная их проблема — родимое пятно всех традиционных интернет-библиотек, — фактическая противоправность. Попытки договориться о републикации каждой конкретной статьи заведомо обречены на провал, — где-то и правообладателя-то уже нет (но авторское право действует), где-то воспротивится издатель, не желающий лишаться рекламных доходов, а зачастую правообладатели попросту поленятся ввязываться во всю эту суету, не сулящую им ни копейки прибыли. Поэтому такая библиотека, если она попытается действовать сугубо легально, — заведомо будет грешить неполнотой. А библиотека, претендующая на полноту, — окажется заведомо нелегальной. Причем если до последнего времени разговоры о легальности сетевых библиотек лежали, преимущественно, в морально-этической плоскости, то сейчас, в свете предстоящего вступления в ВТО и недавних судебных процессов, в дискуссиях на данные темы с готовностью примет участие прокуратура.

Таким образом, если нам нужно найти свежую, качественную и авторитетную информацию, относящуюся к динамичной и быстроменяющейся предметной области, — сколько-нибудь адекватного инструмента для ее поиска попросту не существует. И когда перед нами встала задача собрать и обобщить подобную информацию — по Интернету, телекоммуникациям и смежным областям — на нашем сайте, — нам пришлось такой инструмент изобретать. Библиотеку, архив и поисковую систему в одном лице, — не имеющую, насколько нам известно, аналогов не только в Рунете, но и за его пределами.

«…И, наконец, построили!..»

Работа над этим проектом к моменту его запуска продолжалась уже более года, — первые наброски технического задания датируются февралем 2006 г., и наиболее трудоемкой и сложной задачей было не программирование и не наполнение, а подробнейшая проработка концепции и внутренней логики. Нам надо было избежать описанных выше принципиальных недостатков ранее существовавшего инструментария, и суметь решить проблемы, с которыми он не мог справиться.

Нам необходимо было обеспечить достаточную полноту архива, что невозможно сделать, получая предварительное согласие каждого правообладателя, — но избежать при этом возможного конфликта с законом, неизбежного при самовольной републикации материалов. Значит, — мы создаем поисковую систему, которая позволяет находить нужные документы и отсылает посетителя непосредственно на те сайты, где они и были изначально опубликованы. В результате никакой контрафактной перепечатки не происходит, интересы правообладателей не страдают, а владельцы сайтов, где были опубликованы проиндексированные статьи, получают дополнительных посетителей и благополучно откручивают свои баннеры. И если, паче чаяния, включенный в библиотеку документ сам окажется контрафактной перепечаткой, — то голова об этом болеть будет не у нас, а у пиратов, ее стибривших.

Наша библиотека должна носить фундаментальный характер, потеря значимых документов недопустима, — а ситуация, когда тот или иной сайт прекращает свое существование или напрочь меняет содержание и внутреннюю структуру, в Интернете не так уж и редка. Значит, — при индексировании документа автоматически создается архивная копия, которая не выкладывается для доступа, — это было бы нарушением закона, — а сохраняется в исследовательских целях. Если сайт, на котором был опубликован проиндексированный документ, прекратит свое существование, — документ не окажется безвозвратно утраченным. У нас будет возможность связаться с правообладателями, урегулировать с ними все правовые вопросы и воспроизвести этот документ на нашем сайте, поправив ведущую на него ссылку.

Нам не нужна абсолютная полнота индексации; более того, абсолютная полнота индексации была бы нам вредна, лишь создавая информационный шум. Если посетителю, интересующемуся технологией ADSL, выдать все без малого четыре миллиона документов, содержащих эту аббревиатуру, — такой результат окажется совершенно бесполезным. Напротив, нам надо отобрать пусть сравнительно немногие, но интересные и качественные публикации, содержащие действительно заслуживающую внимания информацию. Заниматься подобным отбором компьютеры не умеют. А значит, — статьи для индексирования отбираются живыми людьми, достаточно хорошо разбирающимися в предмете, чтобы отделить зерна от плевел.

Правильно заданный вопрос — сам по себе уже половина ответа. К сожалению, именно при поисках такого рода документов мы зачастую не знаем, как было бы лучше сформулировать поисковый запрос. Мы можем не знать имен авторитетных в нужной нам теме экспертов, названий компаний, работающих на интересующем нас рынке, или каких-то специальных терминов. Мы просто хотим ознакомиться с публикациями на тему законодательного регулирования в области связи или организации работы техподдержки компании-провайдера. А значит, — необходим подробный многоуровневый тематический рубрикатор, который можно было бы использовать при поиске. И, разумеется, этот рубрикатор должен быть достаточно гибким и иметь возможность развития, — ведь новые технологии и новые рынки появляются то и дело.

Хотя системы тематической классификации текстов и добились определенных, порой довольно заметных успехов, — с живым человеком сравниться они все равно не в состоянии. А значит, классификация индексируемого документа также должна осуществляться живыми людьми.

Разумеется, любая уважающая себя библиотека располагает не только тематическим, но и алфавитным каталогом, являющимся мощнейшим инструментом поиска в традиционном библиотечном деле. А значит, — нам необходимо иметь возможность поиска по именам авторов, изданию-публикатору, дате публикации.

Поскольку изучение статей, посвященных телекоммуникациям и ИТ, нередко связано с поиском информации, относящейся к тем или иным игрокам рынка, логично было бы предоставить пользователю возможность поиска по именам персон и названиям компаний, упоминаемых в тексте.

Даже отобранные вручную статьи имеют неодинаковую ценность, — среди них попадаются как этапные работы, так и просто добротные информашки. Значит, рецензент, вносящий публикацию в каталог, должен иметь возможность выставить свою оценку проиндексированной работе, а пользователь — получить результаты, отсортированные в соответствии с этой оценкой, чтобы ознакомиться, в первую очередь, с наиболее стоящими из них. Кроме того, неплохо иметь возможность сортировать результаты по популярности проиндексированных статей, а также по времени поступления в библиотеку, — что может быть полезно для посетителей, интересующихся новинками.

Наконец, даже при самой хитроумной комбинации поисковых условий, в результатах поиска по популярным темам могут оказаться многие десятки, а потенциально — и многие сотни документов. Значит, чтобы избавить пользователя от необходимости внимательно изучать их все, каждую проиндексированную работу следует сопровождать краткой рецензией, составленной, опять-таки, живым человеком. А заодно предусмотреть и возможность поиска по текстам этих рецензий.

Если собрать воедино перечисленные выше условия, — получается довольно гибкая и мощная поисковая система, в работе которой человек и машина делят обязанности таким образом, чтобы каждый из них наиболее успешно справлялся со своей частью задачи. Система, заточенная под поиск информативных публикаций на профессиональные темы в условиях нечеткости исходной информации. Скажем, припомнив, что, вроде бы, была в свое время такая статья на интересующую тему, можно ввести запрос, по которому поисковик выдаст аннотированные ссылки на все статьи Александра Милицкого, опубликованные в течение 2004 г. в журнале «Компьютерра», посвященные теме широкополосного доступа, и при этом содержащие упоминание компании «МТУ-Интел». Или — все публикации о проблеме авторских прав, в которых упоминались бы компания Microsoft и персона Александр Поносов. Возможности — весьма широки.

В настоящее время проект только-только запущен, мы ведем его доводку, подстройку поисковой логики, доработку пользовательского интерфейса. Мы будем признательны за отзывы и замечания, касающиеся работы системы, удобства ее использования, построения тематического рубрикатора и вообще всех аспектов этого проекта, а также за рекомендации по его дальнейшему развитию. Их можно высказать на нашем форуме.