пятница, 20 июля 2007 г.

Как я поборолся с Гуглем :)

А дело было так:
Решил я таки взяццо за дорвейчеги, но для начала прочитал полезную статейку об "Основах парсинга для новичков". Чтоб, значит, напарсить самоличную базу англоязычных гостевых книжек, а потом туда покидать ссылочков.

Воодушевился сильно! Все показалось простым и понятным, но только до тех пор, пока не застрял в гугле на третьей странице выдачи (по 100 ссылок на страничку). Тут сам гугель стал страшно материццо и обзывать меня "глупым земляным червяком!" (с)

Вот так ругался:



Типо: "Вы к нам с каким-то вирусом или ваще со шпиёнским девайсом притопали. Не дадим более ниччо!!!"

Я слышал краем уха, что гугель больше 1к ссылок не выдает, но вот чтобы на 3-ей странице показать кукиш — эт для меня новость, однако. Пришлось порыться чуток в сети. И, как грицца, ищущий да обрящет! :)

Вот здесь вот: "Тонкости парсинга Google - замена inurl на intext" весьма доходчиво моя трабла разрешилась. Оказывается гугель сильно нелюбит, когда в запросе появляется слово inurl, заведомо подозревая в вас самого черного из самых черных сеошнегов.

Но ежели взаместо сего ввести слово -intext, то все прокатывает очень даже. Только значение должно стоять перед и после запроса.
Пример:

Было так:
inurl:"guestbook.php"

А сделали так:
"guestbook.php" -intext:"guestbook.php"

И таки работает! ;)