quarta-feira, 22 de fevereiro de 2017

Bloquear o Googlebot no seu site


Fala galera que acompanha o blog... 

Anteriormente eu expliquei o que é e como funciona o Googlebot. 
Nesse post, vamos aprender algumas forma de bloquear os bots no nosso site, seja para bloquear alguma página que não gostaríamos que fosse mapeada ou para um evitar o mapeamento de paginas privadas. 

Bloquear o Googlebot no seu site

Precisamos entender que é quase impossível manter um servidor da web em sigilo não publicando links para ele, como vimos a busca realizada por esses bots parte de um link base e a acessa a cada link que vai surgindo, realizando a indexação dos mesmos. 

Para impedir que o Googlebot rastreie o conteúdo do seu site, temos algumas formas de agir. Eu vou deixar o link que direciona para o conteúdo que a própria Google disponibiliza: 

De todas as opções a mais fácil com certeza é proteger com senha os seus diretórios, no entanto o uso do arquivo robots.txt, além de prevenir os bots, protegem que arquivos de imagens sejam exibidos nos resultados da Pesquisa Google. 

No entanto o uso de apenas um desses métodos não garante total segurança de que seu conteúdo não foi indexado e não será exibido nas buscas realizados no Google. É claro que o modo a ser utilizado, vai depender da sua necessidade. 
Fugindo um pouco do escopo de indexação e indo mais diretamente em segurança da informação, sempre utilize senhas nos diretórios que são privados. 

Como mencionado no site de suporte do Goole, embora o Googlebot e outros rastreadores da Web confiáveis sigam as instruções de um arquivo robots.txt, que funcionam apenas como diretivas, elas podem não ser seguidas por outros rastreadores mal intencionados, outro detalhe é que cada rastreador pode interpretar esses arquivos de maneira diferente. É importante saber a sintaxe apropriada para atender a diferentes rastreadores da Web, pois alguns podem não entender todas as instruções. 

O Google disponibiliza um link que se chama Search Console, nele existem diversas opções que auxiliam e muito o trabalho de webmaster, entre ela a poSsibilidade de verificar links quebrados, paginas indexadas, verificar se seu site está sendo indexado pelo Google, realizar buscas como se fosse o Google e diversas outras coisas, acesse o site e se divirta verificando detalhes que podem ser melhorados no seu site. 

É isso ai pessoal, espero ver o site de vocês no topo das buscas rs 
Até a próxima.

terça-feira, 21 de fevereiro de 2017

Googlebot e seu site


Fala galera que acompanha o blog... 

Se você ainda não conhecia o Googlebot e a relação dele com seu site, esse post é muito importante para aprender como o seu site é "mapeado" na internet por esse robozinho... 

Googlebot é o robô de rastreamento da Web do Google (também chamado de "indexador"). O rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google. 

Talvez o termo "indexador" não te remeta a nenhuma lembrança sobre assuntos relacionados que você já tenha lido, pois podem ser encontrados em outros termos como: web crawlersbots, web spiders, web robot ou web scutter. 


Googlebot e seu site

O mais comum é web crawler que em português significa rastreador web. O processo de rastreamento que um web crawler executa é chamado de web crawling ou spidering. Em particular os motores de busca, usam crawlers para manter uma base de dados atualizada, mas também podem ser utilizados para executar tarefas de manutenção automatizados em um site, como verificar links quebrados ou código HTML e até mesmo minerar endereços de email, normalmente utilizados para spam. 

Bom, todos os dias milhares de sites são criados e desativados na Internet, e como seria possível acompanhar toda essa movimentação? Como são definidos quais são os sites que ficarão no topo ao realizar uma busca? E principalmente como as buscas são feitas de forma tão rápida? 
Googlebot atua vasculhando a internet em 3 fases: 

Fase I - RastreamentoO rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google. Usa-se um grande conjunto de computadores para buscar (ou “rastrear”) bilhões de páginas na Web.
O processo de rastreamento do Google começa com uma lista de URLs de páginas da Web, gerada a partir de processos anteriores de rastreamento e aumentada com dados do sitemap fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links de cada página e os inclui na lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.

O Google não aceita pagamento para rastrear um site com mais frequência e mantém a área de pesquisa de negócios separada dos serviços geradores de receita do Google AdWords.

Fase II - Indexação: Agora que o Googlebot já identificou os sites e recolheu as informações sobre eles, chegou a hora de ele processar estas informações. Na fase da indexação os sites anteriormente lidos são agora avaliados segundo uma série de critérios e testes que analizam o nível de SEO e o Googlebot decide então quais deles são os mais relevantes para cada keyword. É nessa fase que são decididos quais são os melhores sites e que eles são separados. Outra curiosidade interessante que é nessa fase também que o Googlebot realiza os testes de black hat no seu site. Se alguma irregularidade for encontrada no seu site ao invés de ele ser marcado como sendo um dos melhores ele é marcado com um site “ladrão” e é punido. Entre as punições podemos ter desde a perda de pontos que vão fazer o seu site cair no ranking até a desindexação onde o seu site é literalmente “expulso” do Google não aparecendo mais nos resultados de nenhuma pesquisa. 

Fase III - PublicaçãoQuando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados que acreditamos ser os mais relevantes para ele. A relevância é determinada por mais de 200 fatores, entre eles o PageRank de uma determinada página. O PageRank é a medida da importância de uma página com base nos links de entrada de outras páginas. Em outras palavras, cada link para uma página no seu site proveniente de outro site adiciona um PageRank ao seu site. Nem todos os links são iguais: o Google trabalha com afinco para melhorar a experiência do usuário, identificando links de spam e outras práticas que afetam negativamente os resultados da pesquisa. Os melhores tipos de links são aqueles retornados com base na qualidade do conteúdo.

Muito bacana não? 

Conforme informado no próprio site de suporte do Google, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. Um detalhe importante é acompanhar os seus registros  que podem mostrar visitas de diversas máquina no google.com.br, todas com o Googlebot user-agent. Caso seja necessário solicite  uma alteração na taxa de rastreamento nesse link aqui.

Ahh importante mencionar que não existe apenas o Googlebot, temos diversos outros robozinhos como: Yahoo! Slurp é o nome do crawler do Yahoo!, Msnbot é o nome do crawler do Bing – Microsoft, Methabot é um crawler com suporte a scripting escrito em C e vários outros. 

É isso ai pessoal, até a próxima!

segunda-feira, 20 de fevereiro de 2017

[Debug] Internet Explorer – Modo de Documento


Fala galera que acompanha o blog... 

Um post direcionado ao nosso querido, o melhor amigo de qualquer desenvolvedor, o navegador parrudo, é ele... INTERNET EXPLORER. 

Você que é um desenvolvedor e está trabalhando em um projeto onde um dos requisitos é "esse sistema deverá ser compatível com Internet Explorer versão x.x.x ou superior", já vou te falar Welcome to Hell rs 

[Debug] Internet Explorer – Modo de Documento

Enfim, deixando a minha opinião sobre o IE, que só serve para baixar o Chrome e dar dor de cabeça, é um navegador ainda bastante utilizado. 

Em um projeto que estou trabalhando estávamos tendo divergências na apresentação do sistema no navegador quanto a versão do IE. O problema era que a mesma versão do IE eram utilizados em outros computadores e em alguns o sistema funcionava normalmente e em outros, os ícones de calendários e algumas setas não eram exibidas. 

Com esse bug em mãos, registrado no JIRA e tudo fiz algumas pesquisas, testei várias possibilidades, a pior delas era atualizar a versão do navegador, o que poderia resolver meu problema, mas não cumpriria com o requisito do projeto. 

E então, eu descobri uma opção quando acessava "Ferramentas para o desenvolvedor" ou F12, que se chama "Modo de documento". Esse carinha acabava sendo o grande vilão. Mesmo todas as máquinas utilizando a mesma versão do IE (11.576.14393.0), em algumas máquinas nesse campo estava selecionado uma versão mais antiga do navegador o que acabava gerando o problema. 

O meu problema foi corrigido deixando em todas as máquinas a mesma opção selecionado, 11 (padrão) dessa forma todos os navegadores realmente estavam  utilizando a versão 11.

Espero que esse post possam ajuda vocês e é isso ai pessoal, até a próxima.