Лабораторная работа № 1.
Поиск информации в Internet.
Цель: познакомиться с языками запросов используемых
поисковых систем.
Выполнение:
1. Язык запросов
поисковой системы Rambler.
Поисковые слова.
Запрос может состоять из одного или нескольких слов, разделенных пробелами.
Могут быть использованы как русские, так и английские слова и словосочетания.
По умолчанию находятся только те документы, в которых встретились все
введенные Вами слова.
Чтобы найти документы, содержащие хотя бы одно слово из запроса, используйте
логическую связку Or (см. ниже) или выберите на странице детального
запроса: "Слова запроса: любое". Чтобы исключить документы, содержащие
те или иные слова, укажите на странице детального запроса: "Исключить
документы, содержащие следующие слова ...".
Регистр
Все равно, с какой буквы написаны слова запроса: с большой или с маленькой.
И при построении индекса, и при поиске по запросу все заглавные (большие)
буквы "понижаются".
Логические связки
Слова запроса могут быть соединены логическими связками And ("и"),
Or ("или"). Вместо связок (или в сочетании с ними) могут использоваться
также символы '&', '|'.
Логические группы
Части запроса могут быть сгруппированы с помощью круглых скобок ( ). Возможна
многократная вложенность скобок в сочетании с логическими операторами.
Словоформы
Рамблер умеет искать слова во всех формах (например, аминокислота, аминокислоты,
аминокислотой и т. д.). Чтобы слово находилось во всех формах, перед ним
надо поставить служебный символ '#'. В меню детального запроса такой режим
может быть включен для всех слов: "Расширение запроса: все формы слов".
Служебный символ '@' перед словом позволяет находить не только само это
слово, но и однокоренные слова. В меню детального запроса символу '@'
соответствует режим "Расширение запроса: все однокоренные".
Усечение слов
По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы
уменьшить "шум" в найденных документах. Если Вы не помните, как пишется
слово, или хотите расширить запрос, можно использовать метасимволы '*'
и '?' для обозначения произвольной части слова и произвольного символа.
Поиск в части документа
Ограничить поиск частями документов, такими как название документа, его
заголовок, URL и т.п., можно через меню детального запроса "Искать в...".
Язык документов
Можно ограничить поиск документами только на русском или только на английском
языке. Для этого надо выбрать соответствующий режим в меню детального
запроса "Язык документа...". По умолчанию поиск выполняется по документам
на всех языках.
Сортировка результатов
По умолчанию найденные документы сортируются по релевантности (соответствию
запросу). Однако Вы можете потребовать, чтобы вместо этого в начало списка
были помещены самые свежие (или, наоборот, самые старые документы). Для
этого надо выбрать соответствующую установку в меню "Сортировать по..."
на странице детального запроса. Вы можете также ограничить поиск документами,
созданными в определенный период времени: для этого необходимо на странице
детального запроса указать "От даты ... до даты ...".
Расстояние между словами
Можно потребовать, чтобы Рамблер возвращал только те документы, где слова
из запроса находятся на минимальном расстоянии друг от друга. Режим "Ограничить
расстояние между словами" может быть включен в детальном запросе. Все
перечисленные выше правила могут быть использованы совместно друг с другом
в необходимой Вам последовательности.
Выдача результатов
По умолчанию результаты поиска выдаются порциями по 15 документов. Меню
"Выдавать по..." на странице детального запроса позволяет увеличить это
число до 30 или 50.
Меню "Форма вывода..." позволяет получать описания документов с увеличенной
или уменьшенной подробностью.
2. Язык запросов
поисковой системы Yandex.
Как трактуются слова
Независимо от того, в какой форме вы употребили слово в запросе, поиск
учитывает все его формы по правилам русского языка.
Например, если задан запрос 'идти', то в результате поиска будут найдены
ссылки на документы, содержащие слова 'идти', 'идет', 'шел', 'шла' и т.д.
Если вы набрали в запросе слово с большой буквы, будут найдены только
слова с большой буквы (если это слово не первое в предложении), в противном
случае будут найдены как слова с большой, так и с маленькой буквы. По
умолчанию поиск учитывает все формы заданного слова согласно правилам
русского языка. Однако существует возможность поиска по точной словоформе,
для этого перед словоформой надо поставить восклицательный знак '!'.
Естественно-языковый поиск
Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были
найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие-либо
слова из результата поиска, поставьте перед каждым из них "-". Обратите
внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-"
надо писать через пробел от предыдущего и слитно с последующим словом,
вот так:
'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак - гороскоп', то
знак "-" будет проигнорирован.
Основные операторы
Несколько набранных в запросе слов, разделенных пробелами, означают, что
все они должны входить в одно предложение искомого документа. Тот же самый
эффект произведет употребление символа '&'.
Между словами можно поставить знак '|', чтобы найти документы, содержащие
любое из этих слов. (Удобно при поиске синонимов).
Еще один знак, тильда '~', позволит найти документы с предложением,
содержащим первое слово, но не содержащим второе.
По запросу 'банки ~ закон' будут найдены все документы, содержащие
слово 'банки', рядом с которым (в пределах предложения) нет слова 'закон'.
Чтобы подняться на ступеньку выше, от уровня предложения до уровня документа,
просто удвойте соответствующий знак. Одинарный оператор (&, ~) ищет в
пределах абзаца, двойной (&&, ~~) - в пределах документа.
Поиск с расстоянием
Часто в запросах ищут устойчивые словосочетания. Если поставить их в кавычки,
то будут найдены те документы, в которых эти слова идут строго подряд.
Как Яndex адресует слова? Если все слова в тексте перенумеровать по порядку
их следования, то расстояние между словами a и b - это разница между номерами
слов a и b. Таким образом, расстояние между соседними словами равно 1
(а не 0), а расстояние между соседними словами, стоящими "не в том порядке",
равно -1. То же самое относится и к предложениям. Если между двумя словами
поставлен знак '/', за которым сразу напечатано число, значит, требуется,
чтобы расстояние между ними не превышало этого числа слов. Если порядок
слов и расстояние точно известны, можно воспользоваться пунктуацией '/+n'.
Так, например, задается поиск слов, стоящих подряд.
Запрос 'синяя /+1 борода' означает, что слово 'борода' должно следовать
непосредственно за словом 'синяя'. (К тому же результату приведет запрос
"синяя борода")
В общем виде ограничение по расстоянию задается при помощи пунктуации
вида '/(n m)', где 'n' минимальное, а 'm' максимально допустимое расстояние.
Отсюда следует, что запись '/n' эквивалентна '/(-n +n)', а запись '/+n'
эквивалентна '/(+n +n)'. Практически все знаки можно комбинировать с ограничением
расстояния.
Например, результатом поиска по запросу 'вакансии ~ /+1 студентов'
будут документы, содержащие слово 'вакансии', причем в этих документах
слово 'студентов' не следует непосредственно за словом 'вакансии'.
Когда знаки ограничения по расстоянию стоят после двойных операторов,
то употребленные там числа - это расстояние не в словах, а в предложениях.
Расстояние в абзацах определяется аналогично расстоянию в словах.
Запрос 'банк && /1 налоги' означает, что слово 'налоги' должно находиться
в том же самом, либо в соседнем со словом 'банк' предложении.
Скобки
Вместо одного слова в запросе можно подставить целое выражение. Для
этого его надо взять в скобки.
Например, запрос '(история, технология, изготовление) /+1 (сыра, творога)'
задает поиск документов, которые содержат любую из фраз 'история сыра',
'технология творога', 'изготовление сыра', 'история творога'.
Поиск в зонах
Можно искать информацию в "зонах" - заголовках (имя "зоны": Title), ссылках
(имя "зоны": Anchor) и адресе (имя "зоны": Address). Синтаксис: $имя_зоны
(поисковое выражение).
Запрос '$title CompTek' ищет в заголовках документов слово 'CompTek'.
Запрос '$anchor (CompTek | Dialogic)' находит документы, в cсылках внутри
которых есть одно из слов 'CompTek' или 'Dialogic'.
Поиск в определенных элементах
Можно ограничить поиск информации списком серверов или наоборот исключить
сервера из поиска (url). Можно также искать документы, содержащие ссылки
на определенные URL (link), и файлы картинок (image). Если вы хотите работать
не с конкретным URL (image), а со всеми, начинающимися с данной последовательности
символов, используйте "*". Синтаксис: #имя_элемента="имя_файла (URL)".
По запросу 'CompTek ~~ #url="www.comptek.ru*"' будут искаться упоминания
компании 'CompTek' везде, кроме ее собственного сервера (www.comptek.ru).
А запрос '#link="www.comptek.ru*"' покажет все документы, которые сослались
на сервер компании. Запрос ' #image="tort*"' даст ссылки на документы
с изображениями тортов (хотя, возможно, найдется и портрет черепахи Тортиллы).
Можно также искать по ключевым словам (keywords), аннотациям (abstract)
и подписям под изображениями (hint). Синтаксис: #имя_элемента=(поисковое
выражение).
Запросу '#keywords=(поисковая система) | #abstract=(поисковая система)'
будут искаться все страницы, в meta тегах которых есть эти слова. По запросу
'#hint=(кино)' будут найдены документы, содержащие изображение с такой
подписью.
Ранжирование результата поиска
При поиске для каждого найденного документа Яндекс вычисляет величину
релевантности (соответствия) содержания этого документа поисковому запросу.
Список найденных документов перед выдачей пользователю сортируется по
этой величине в порядке убывания. Релевантность документа зависит от ряда
факторов, в том числе от частотных характеристик искомых слов, веса слова
или выражения, близости искомых слов в тексте документа друг к другу и
т.д. Пользователь может повлиять на порядок сортировки, используя операторы
веса и уточнения запроса. Задание веса слова или выражения применяется
для того, чтобы увеличить релевантность документов, cодержащих "взвешенное"
выражение. Синтаксис: слово:число или (поисковое_выражение):число
По запросу 'поисковые механизмы:5' будут найдены те же документы,
что и по запросу 'поисковые механизмы'. Разница состоит в том, что наверху
списка найденного окажутся документы, где чаще встречается именно слово
'механизмы'.
|