Параметры URL страницы поисковой выдачи Google
В одной из своих предыдущих статей я рассмотрел парaметры URL страницы поисковой выдачи Яндекса. Теперь рассмотрим тот же вопрос для поисковой системы Google. Там так же, как и в Яндексе, существует возможность регулировать результаты выдачи по базовому запросу (которому соответствует значение параметра q или as_q) с помощью целого ряда get-параметров формата переменная=значение, используемых в URL страницы поисковой выдачи после подстроки /search? . Использование этих параметров может быть весьма полезно при парсинге поисковой выдачи.
Также, как и в случае Яндекса, базовый набор этих параметров можно определить с помощью использования фильтров расширенного поиска, режима «Инструменты поиска», а также индивидуальных настроек поиска.
Примечательно, что некоторые параметры URL страницы выдачи Google сопровождаются появлением соответствующих им поисковых операторов в форме поиска (в Яндексе подобного не происходит). Таковым является набор параметров со значением в виде поисковой фразы:
- as_epq – поиск по фразе в точной форме, аналог оператора “” (кавычки)
- as_oq – поиск по любому слову фразы, аналог оператора OR
- as_eq – исключаемая из запроса фраза, аналог оператора – (минус)
А также параметры с другими типами значений:
- as_nlo и as_nhi – задают начало и конец цифрового диапазона соответственно, аналог оператора .. (две точки)
- as_sitesearch – сужают область поиска на заданный сайт, аналог оператора site:
- as_rq – ищет страницы, похожие на заданный документ (в качестве значения используется URL документа), аналог оператора related:
- as_occt – задает область документа для поиска, принимает значения
- as_occt=title (поиск в теге title, аналог оператора allintitle:)
- as_occt=body (поиск в тексте страницы, аналог оператора allintext:)
- as_occt=url (поиск в URL страницы, аналог оператора allinurl:)
- as_occt=links (поиск в текстах ссылок на страницу, аналог оператора allinanchor:)
- as_filetype – задает формат документов для поиска (аналог оператора filetype:) и принимающий значения pdf, ps, dwf, kml, kmz, xls, ppt, doc, rtf, swf.
Другие типы параметров, не производят изменений в поисковой строке.
Языковые параметры:
- lr – язык документа (принимают значения в виде lr=lang_ru, где последние две буквы означают индекс языка, в данном примере – русский)
- hl – язык интерфейса (приминает значения в виде двухбуквенного индекса языка, например, hl=ru – для русского). Примечательно, что этот параметр влияет на выдачу, некоторое преимущество получают документы на языке интерфейса.
Региональные параметры:
- cr – страна документа (принимает значения в виде cr=countryRU, где последние две буквы означают индекс страны, в данном примере – Россия).
- gl – страна документа, принимает значения в виде двухбуквенного индекса страны (например, gl=ru для России), аналог оператора cr, однако выдачу строит отличную от него). Стоит заметить, что при использовании операторов cr и gl в топ выдачи подмешиваются сайты из региона или страны пользователя, если она не совпадает со страной, заданной оператором (об этом эффекте я упоминал в статье «Региональность в Google»).
- near – весьма любопытный недокументированный параметр, которому можно указывать в качестве значения название населенного пункта (на английском или русском языке, например, near=moscow или near=екатеринбург). Однако, эта выдача не является выдачей для указанного населенного пункта. Судя по всему, этот параметр в выдаче, построенной для региона пользователя, дает сайтам из указанного в качестве его значения населенного пункта некоторое преимущество.
Временные параметры:
- as_qdr и tbs – поиск по документам, имеющим определенную дату обновления (при совместном использовании приоритет имеет параметр tbs). Принимают базовые значения:
Если же к базовым значениям (кроме значений за все время) добавить число, то можно получить выдачу за несколько соответствующих временных промежутков, например, комбинация as_qdr=h9 сузит выдачу на документы, обновленную за последние 9 часов, а комбинация tbs= qdr:m24 – за последние 24 месяца.
Также с помощью оператора tbs можно задавать произвольный диапазон дат обновления документа, в этом случае, он принимает значение следующего формата: tbs=cdr:1,cd_min:01.07.2016,cd_max:01.08.2016 (в данном примере указан диапазон от 01.07.1016 до 01.08.2016).
Если при использовании временных параметров с указанными значениями задать для параметра tbs дополнительное значение sbd:1, то результаты будут ранжироваться не по релевантности, а по времени обновления. Этот способ не работает только в том случае, если параметр as_qdr принимает значение all. Поэтому получить выдачу за все время, отсортированную по времени обновления, можно только с использованием комбинации tbs=sbd:1,qdr:all.
Оператор tbs, являющий универсальным, может также принимать значение li:1 – поиск по запросу в точной форме (аналог оператора “”), однако в этом случае в поисковой форме не происходит появления соответствующего оператора.
Параметры фильтрации контента:
- safe – значения active и on включают фильтрацию непристойных результатов с помощью безопасного поиска, значение off отключает фильтрацию в случае, если в настройках поиска был включен режим «Безопасный поиск»; этот параметр может быть весьма полезен для определения, не попал ли конкретный сайт или документ под данный фильтр
- as_rights – задание различных вариантов прав на использование контента
- tbm – поиск по различным типам контента, принимает значения
- app – поиск по приложениям
- bks – поиск по книгам
- isch – поиск по изображениям
- nws – поиск по новостям
- pts – поиск по патентам
- shop – поиск по магазинам
- vid – поиск по видео
Параметры управления результатами поиска:
- num – количество результатов на странице поиска, принимает значения от 1 до 100
- start – показ выдачи, начиная с заданной позиции (например, start=100)
- newwindow=1 – открывать ссылки в новом окне
- filter=0 – показать скрытые результаты, которые очень похожи на уже представленные
- pws – управление персональными результатами поиска, принимает значения 0 (персональные результаты скрыты) и 1 (персональные результаты включены)