terça-feira, 5 de março de 2013

On 06:39 by papa   No comments

how-search-works
Quer saber como o maior buscador da internet funciona? O Google lançou na sexta-feira uma página mostrando os bastidores do mecanismo de pesquisa, incluindo informações sobre a indexação das mais de 30 trilhões de páginas da web, o intenso combate ao spam e o algoritmo responsável por exibir os resultados mais relevantes para o usuário, que leva em consideração mais de 200 características.

Na página “How Search Works” é possível descobrir, por exemplo, que o índice de páginas do Google possui mais de 100 milhões de gigabytes, ou 100 petabytes. Não parece tanto para um serviço que precisa indexar trilhões de páginas, mas essas informações (ou boa parte delas) estão armazenadas em memória RAM. É por isso que o algoritmo consegue pesquisar todo o índice e retornar os resultados em apenas um oitavo de segundo.


O Google também fez questão de destacar o combate ao spam. Um gráfico mensal mostra que, só em junho de 2011, mais de 100 mil ações foram tomadas manualmente para remover do índice sites invadidos que passaram a disseminar spam. Essas ações são gerenciadas por uma equipe de combate manual ao spam, que fica localizada em diversos escritórios ao redor do mundo – há profissionais na Índia, na Irlanda, no Japão e na China.

Quem gerencia sites pode se interessar por um documento de 43 páginas com as diretrizes para avaliadores de pesquisa do Google. O texto não conta a receita do bolo, mas dá uma ideia de como o algoritmo e os engenheiros pensam na hora de classificar as páginas – há diversas exceções a se considerar quando o assunto é conteúdo duplicado, e o local onde o usuário está fazendo a busca influencia diretamente nos resultados da pesquisa.
Se você não lê em inglês, há uma versão em português da página “Como a pesquisa funciona”, mas ela não possui o infográfico animado (que é bem bacana).


0 comentários:

Postar um comentário