google bot ve msn bot siteyi gezebiliyor ? nasıl oluyor
-
- Kayıtlı Kullanıcı
- Mesajlar: 48
- Kayıt: 09.11.2005, 01:37
google bot ve msn bot siteyi gezebiliyor ? nasıl oluyor
Admin panelınde daha once cok dikkatimi çekmişti
misafir gozukenler registerli kısılerın girebilcegi bolumlere girebiliyorlar.
mesela
TraceRoute to 207.46.98.76 [msnbot.msn.com]
Hop (ms) (ms) (ms) IP Address Host name
1 0 0 0 66.98.244.1 gphou-66-98-244-1.ev1.net
2 0 0 0 66.98.241.9 gphou-66-98-241-9.ev1.net
3 0 0 0 66.98.240.1 gphou-66-98-240-1.ev1.net
4 1 1 1 66.98.241.225 ivhou-66-98-241-225.ev1.net
5 4 1 1 207.218.223.18 ivhou-207-218-223-18.ev1.net
6 9 8 8 208.172.129.1 -
7 8 9 9 208.172.131.77 bcr2-so-2-2-0.dallas.savvis.net
8 8 8 8 204.70.193.14 bcs1-so-3-0-0.dallas.savvis.net
9 8 8 8 204.70.193.214 dpr1-as0-0.dallasequinix.savvis.net
10 7 7 7 208.172.131.130 p2-3.ir1.dallas2-tx.us.xo.net
11 7 7 7 65.106.4.181 p5-0-0.rar1.dallas-tx.us.xo.net
12 39 42 39 65.106.0.14 p6-0-0.rar2.la-ca.us.xo.net
13 40 47 39 65.106.1.49 p0-0-0d0.rar1.la-ca.us.xo.net
14 47 46 108 65.106.0.18 p6-0-0.rar2.sanjose-ca.us.xo.net
15 47 47 47 65.106.5.186 p1-0.ir1.sanjose2-ca.us.xo.net
16 Timed out Timed out Timed out -
TraceRoute to 66.249.72.138 [crawl-66-249-72-138.googlebot.com]
Hop (ms) (ms) (ms) IP Address Host name
1 0 0 0 66.98.244.1 gphou-66-98-244-1.ev1.net
2 0 0 0 66.98.241.9 gphou-66-98-241-9.ev1.net
3 2 0 0 66.98.240.5 gphou-66-98-240-5.ev1.net
4 18 1 1 129.250.10.189 ge-2-0-0.r02.hstntx01.us.bb.verio.net
5 9 8 10 129.250.5.100 p16-0-3-0.r21.dllstx09.us.bb.verio.net
6 9 10 9 129.250.2.195 p16-7-0-0.r01.dllstx09.us.bb.verio.net
7 8 7 7 64.125.12.53 so-6-0-1.cr1.dfw2.us.above.net
8 7 7 10 64.125.28.210 so-0-0-0.cr2.dfw2.us.above.net
9 31 31 31 64.125.29.10 so-2-0-0.cr2.dca2.us.above.net
10 57 56 40 64.125.28.130 so-6-0-0.mpr2.iad1.us.above.net
11 32 31 31 64.125.29.134 so-3-0-0.mpr1.iad2.us.above.net
12 35 34 35 209.249.73.66 main1.above.net
13 31 32 31 66.249.72.138 crawl-66-249-72-138.googlebot.com
bu ıkısı masallah forumun her yerını gezdıler
tam 20 dakıka ınceledım girmedık cıkmadık yer bırakmadılar.
nasıl oluyorda bunlar girebileyorlar
normalde forumda kayıt olmadan ve uyelık aktıf olmadan hıc bir yeri gezemez kullanıcılar
bunu nasıl engellerim msn bot ve google botun sitemin forumumda gezınmesını ??
misafir gozukenler registerli kısılerın girebilcegi bolumlere girebiliyorlar.
mesela
TraceRoute to 207.46.98.76 [msnbot.msn.com]
Hop (ms) (ms) (ms) IP Address Host name
1 0 0 0 66.98.244.1 gphou-66-98-244-1.ev1.net
2 0 0 0 66.98.241.9 gphou-66-98-241-9.ev1.net
3 0 0 0 66.98.240.1 gphou-66-98-240-1.ev1.net
4 1 1 1 66.98.241.225 ivhou-66-98-241-225.ev1.net
5 4 1 1 207.218.223.18 ivhou-207-218-223-18.ev1.net
6 9 8 8 208.172.129.1 -
7 8 9 9 208.172.131.77 bcr2-so-2-2-0.dallas.savvis.net
8 8 8 8 204.70.193.14 bcs1-so-3-0-0.dallas.savvis.net
9 8 8 8 204.70.193.214 dpr1-as0-0.dallasequinix.savvis.net
10 7 7 7 208.172.131.130 p2-3.ir1.dallas2-tx.us.xo.net
11 7 7 7 65.106.4.181 p5-0-0.rar1.dallas-tx.us.xo.net
12 39 42 39 65.106.0.14 p6-0-0.rar2.la-ca.us.xo.net
13 40 47 39 65.106.1.49 p0-0-0d0.rar1.la-ca.us.xo.net
14 47 46 108 65.106.0.18 p6-0-0.rar2.sanjose-ca.us.xo.net
15 47 47 47 65.106.5.186 p1-0.ir1.sanjose2-ca.us.xo.net
16 Timed out Timed out Timed out -
TraceRoute to 66.249.72.138 [crawl-66-249-72-138.googlebot.com]
Hop (ms) (ms) (ms) IP Address Host name
1 0 0 0 66.98.244.1 gphou-66-98-244-1.ev1.net
2 0 0 0 66.98.241.9 gphou-66-98-241-9.ev1.net
3 2 0 0 66.98.240.5 gphou-66-98-240-5.ev1.net
4 18 1 1 129.250.10.189 ge-2-0-0.r02.hstntx01.us.bb.verio.net
5 9 8 10 129.250.5.100 p16-0-3-0.r21.dllstx09.us.bb.verio.net
6 9 10 9 129.250.2.195 p16-7-0-0.r01.dllstx09.us.bb.verio.net
7 8 7 7 64.125.12.53 so-6-0-1.cr1.dfw2.us.above.net
8 7 7 10 64.125.28.210 so-0-0-0.cr2.dfw2.us.above.net
9 31 31 31 64.125.29.10 so-2-0-0.cr2.dca2.us.above.net
10 57 56 40 64.125.28.130 so-6-0-0.mpr2.iad1.us.above.net
11 32 31 31 64.125.29.134 so-3-0-0.mpr1.iad2.us.above.net
12 35 34 35 209.249.73.66 main1.above.net
13 31 32 31 66.249.72.138 crawl-66-249-72-138.googlebot.com
bu ıkısı masallah forumun her yerını gezdıler
tam 20 dakıka ınceledım girmedık cıkmadık yer bırakmadılar.
nasıl oluyorda bunlar girebileyorlar
normalde forumda kayıt olmadan ve uyelık aktıf olmadan hıc bir yeri gezemez kullanıcılar
bunu nasıl engellerim msn bot ve google botun sitemin forumumda gezınmesını ??
-
- Kayıtlı Kullanıcı
- Mesajlar: 48
- Kayıt: 09.11.2005, 01:37
tamam
banladım ıkı ipide sımdı hemen cıktılar gezınemıyorlar 

Re: tamam
Google'de olmak istemiyormusunuz ? Eğer bu tip taramalardan rahatsız oluyorsanız kısmi engellemeler yapabilirsiniz.. robots.txt yapılandırmalısınız bunun için.superaslan yazdı:banladım ıkı ipide sımdı hemen cıktılar gezınemıyorlar
http://www.robotstxt.org/wc/norobots.html
işte o böcükler bunu için dolanıyo tavsiye edilir ( google veya msn search de ust sıralarda yer almak ıstıyosanızÖncelikle işe sayfamızdaki meta taglar ile başlayalım ..
<META HTTP-EQUIV="Content-type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="description" CONTENT="Konu">
<META NAME="keywords" CONTENT="kelime1, kelime2, kelime3, kelime4,kelime 5">
<META NAME="author" CONTENT="KapTan">
<LINK REV="made" href="mailto:info@hostinghizmeti.com">
Buraya kadar olan 5 satır klasik meta tag olup <head> .. </head> tagları arasında yer alır.
ziyaretçilerimize asla görünmeyen yazılar olup uygulama anaları şöyledir..
1.satırdaki tag sayfamızın hangi dilde yazıldığını gösterir. Türkçe karakter kullananlar için mutlaka
olması gereken bir tagdır.
2.satırdaki tag sayfamızın konusunu belirler.
3. satırdaki tag sayfamızın arama motorlarında bulunmasını istediğimiz anahtar kelimelerini
belirlememize yarar. Burda dikkat edilmesi gereken en faz 20 anahtar kelime tanımlamamız ve
aralarına virgül (,) koymmaız.
4. satırdaki tag sitenin adminini, 5. satırdaki tag ise o adminin aktif email adresini belirlememize
yarar..
Dediğimn gibi buraya kadar standart taglardır. Şimdide google için ekstra 2 tag yazalım ve bu
tagları yukarıdakilerin altına koyup sayfamıza ekleyelim..
<META NAME="ROBOTS" CONTENT="INCLUDE, FOLLOW">
<META NAME="revisit-after" CONTENT="1">
Burda 1. sıradaki tag google ve diğer arama motorlarının örümcek (robot) lerine sitemizi indexleme
kolaylığı sağlamakla birlikte 2. satırdaki 1 sayısı 1 haftada bir sitemizin güncellendiğini ve 1 hafta
sonra tekrar bu örümceğin sitemize gelmesi ve değişimi tekrar veritabanına eklemesi gerektiğini
gösterir. Ben burda temsilen 1 yazdım. Eğer siteniz çok sık güncellenen bir site değilse bu sayısı
3-4 yapmak en mantıklısı olacaktır.
Şimdi gelelim bu işin en önemli yerine. örümceğe yol göstermeye. öncelikle örümcek hakkında bilgi
vereyim size. Örümcek yada robot adıyla anılan bazı programlar vardır. Bu programlar direk arama
motorlarının veri tabanından gelirler. her gün milyonlarca siteyi gezer ve o sitedeki bilgileri alıp
veritabanına eklerler. Dolayısıyla google de yer almak için bu örümceği iyi bilmemiz gerekir.
Örümcek zararsızdır elbette ama örümceği iyi tanımak ona yol göstermek örümceğin rastgele
bilgiler alıp gitmesini engellemek de bizim görevimizdir. Bazı arama motorları örümcekleri önce
sizden onay ister. sizin ona izin verip vermediğinizi bilmek ister. işte bununda en basit ve etkili
çözümü robots.txt dosyasıdır. Normal not defterini açarak yazacağımız bazı kodları robots adıyla
kaydedip onu sitemizde root umuza yerleştirmemiz gerekir. Yapacağımız bu işlemle örümceği biz
yönetmiş oluyoruz. Ve hepinizinde tahmin edeceği gibi yönetmekten doğan bir güç ve bugün
karşılığı rastgele bilgilerle değilde tam anlamda istediğimiz bilgilerle arama motorlarında yer almak
güzeldir.
Şimdi robots.txt dosyası hakkında bilgi vererek işe başlayalım ;
Örümcek geldiği zaman o web sitesinin içeriğini indexlemek ister. Ancak güvenlik için genelde bir
çok hosting firmaları içerik indexlemeyi kapatmıştır. Sadece size özelde bunu açmazlar. Ama biz
robots.txt dosyamızla kendimize özel bir izin yaratabiliriz.
Basit olarak robots.txt dosyasının içinde şu iki satır olmak zorundadır..
User-agent:
Disallow:
Burada user-agent uygula disallo izin verme anlamındadır.
Bizede burda düşen görev bu iki komutu en etkili bir şekilde kullanmaktır.
mesela bir örnek verelim. Sitemizi indexlemeyi sadece google bot unun yapmasını istiyoruz. ve
sitemizdeki admin klaösrünü asla yayınlamamasını istiyoruz diyelim; ozaman bu iki komut şu
şekilde kullanılır;
User-agent: Googlebot
Disallow: /admin/
Gördüğünüz gibi uygulama alanı çok kolaydır. Ben burda size aktif hizmet veren arama
motorlarının isimlerini yazacam. Sizlerde hangilerinde yer almak isiyorsanız okadar
User-agentsatırı ekleyeceksiniz. Disallow kullanımı ise tamamen tercih meselasi olup kaç tane
klasör yada dosya yı gizlemek isterseniz okadar çok satır kullanmanız gerekir..
Şimdi google başta olmak üzere aktif bot mantığı ile çalışan bazı arama motorları ve portallar
şunlardır;
Googlebot
BizBot04 kirk.overleaf.com
HappyBot (gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0 libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0 libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0 from 206.214.202.45
Libertech-Rover http://www.libertech.com?
WhoWhere Robot
ITI Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder (amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
http://www.freeloader.com.
Burdaki tüm robotların başına User-agent ekleyip o robota izin verebiliriz..
Önemli Not : Robotlar her nekadar prensip olarak robots.txt ye bağlı kalmaları gerekse bile arada istisnalar olabilmektedir.
Re: google bot ve msn bot siteyi gezebiliyor ? nasıl oluyor
ben google bot gezsin istiyorum indexleme yapsın sen banlıyorsun 

Kimler çevrimiçi
Bu forumu görüntüleyen kullanıcılar: Hiç bir kayıtlı kullanıcı yok ve 1 misafir