Linux-Bulgaria.ORG
навигация

 

начало

пощенски списък

архив на групата

семинари ...

линукс учебник

документи

как да ...

 

 

Предишно писмо Следващо писмо Предишно по тема Следващо по тема По Дата По тема (thread)

Re: [Lug-bg] Филтриране на Web Crawlers чрез iptables


  • Subject: Re: [Lug-bg] Филтриране на Web Crawlers чрез iptables
  • From: "Веселин Михайлов" <melkor.vmm@xxxxxxxxx>
  • Date: Tue, 29 Jul 2008 11:54:53 +0300

  Благодаря на всички за бързите отговори. Аз също успях да стигна до едно работещо решение. Остана ми малко да доизкусуря скрипта и ще го публикувам в блога си тия дни. В крайна сметка се оказа че решението което замислих не е чак толкова добро, защото най-вероятно ще се отрази на ранковете на сайтовете заради това временно прекъсване (за това не бях помислил особенно :) ).

  Относно идеята за скрипт който наблюдава логовете - това ми беше първата идея, но идеята е да бъде свършено това с минимално натоварване на машината, затова питах за варианти само с iptables.

  Жоро, относно списъка с IP адреси на "паяците", може да бъде намерен на http://www.iplists.com.

  Проблема е със предимно Google, Yahoo! и Twiceler, тъй като те най-често обхождат сайтовете. Май идеята на Лазаров може би ще свърши по-добра работа. ;)

  Още един път - благодаря на всички.

2008/7/29 Lazarov <lazcorp@xxxxxxxxxx>
Веселин Михайлов wrote:
> Здравейте група!
>
>   Имам следният въпрос, над който се чудя и не успявам да стигна до
> работещо решение. Възможно ли е (и как) да се ограничат временно
> връзките на Web Crawler-те (IP адресите им) чрез лимит?
>
>   Рових и четох документация, но нещо ми се изплъзва. Идеята е когато
> един "паяк" направи определено количество връзки към хоста да бъде
> блокиран за определено време (примерно час).
>
>   Възможно ли е това да стане само с iptables или ще трябва да се пише
> някакъв допълнителен скрипт/демон който да го прави?
>
> Поздрави!
> ------------------------------------------------------------------------
>
> _______________________________________________
> Lug-bg mailing list
> Lug-bg@xxxxxxxxxxxxxxxxxx
> http://linux-bulgaria.org/mailman/listinfo/lug-bg
>
Имаш проблем с определени роботи или като цяло имаш проблем с тях?
Някой разбират от лимити в robots.txt:
User-agent: *
Request-rate: 1/60
Visit-time: 0200-0600

Това ще ги лимитира да влизат само веднъж на минута (за всяка търсачка)
и само в часовата зона от 2ч до 6ч през ноща (UTC)

Все пак сподели дали имаш проблем с конкретни паяци или?
_______________________________________________
Lug-bg mailing list
Lug-bg@xxxxxxxxxxxxxxxxxx
http://linux-bulgaria.org/mailman/listinfo/lug-bg

_______________________________________________
Lug-bg mailing list
Lug-bg@xxxxxxxxxxxxxxxxxx
http://linux-bulgaria.org/mailman/listinfo/lug-bg


 

наши приятели

 

линукс за българи
http://linux-bg.org

FSA-BG
http://fsa-bg.org

OpenFest
http://openfest.org

FreeBSD BG
http://bg-freebsd.org

KDE-BG
http://kde.fsa-bg.org/

Gnome-BG
http://gnome.cult.bg/

проект OpenFMI
http://openfmi.net

Silaw.ORG
http://cilaw.org

 

 

© Copyright 2006 - 2008 Linux-Bulgaria.ORG

Hosted by "Internet Group" Ltd. - Stara Zagora