О секретах поисковых технологий написаны уже терабайты электронных текстов. Сегодня только ленивый не пишет об алгоритме PageRank на Google или о маркетинговой стратегии Яндекса при размещении платных ссылок.
Я же хотел обратить ваше внимание на вопросы, возникающие с использованием русского языка как поисковыми системами, так и систем анализа, продвижения и управления ресурсами.
Уже стала расхожим штампом фраза Тургенева о русском языке, великом и могучем. Одной из «национальных особенностей» нашего языка является его уникальная морфологическая система. Морфология – это наука о правилах словоизменения и словообразования. Все мы в школе постигали азы русской морфологии: корень, суффикс, приставка, окончание.
Кстати, именно окончание, или, по-научному, флексия – самая большая головная боль разработчиков русскоязычных поисковиков. Флективность русского языка, то есть способность слов менять свое окончание в зависимости от рода, числа и падежа заставляет разработчиков поисковых машин придумывать сложнейшие алгоритмы и модели обработки текста. Все так сложно, скажете вы? Да, и это только начало.
На горизонте уже стоит задача обработки омонимии (совпадения разных слов в их написании), выявление словосочетаний и синонимических парафраз, разрешения лексической многозначности и многое, многое другое. Но в секретные лаборатории алхимиков Рунета мы заглянем с вами в следующий раз. Это выходит за рамки нашей темы. Сегодня мы говорим только о морфологии.