Lá em 2014, eu e o Giuliano Ferreira conversamos sobre como poderíamos indexar nossos catálogos no Google. Depois ele apresentou um trabalho bacana no SNBU: “AUMENTANDO O ALCANCE E A VISIBILIDADE DE CATÁLOGOS ONLINE E REPOSITÓRIOS INSTITUCIONAIS COM A AJUDA DO GOOGLE.”. Então essa é uma idéia que estava martelando na minha cabeça desde aquela época.
Neste post vou mostrar o caminho que fizemos para tornar essa idéia algo real.
Atualmente temos um catálogo que pode ser indexado pelo google, mas não está sendo por uma questão importante, que é a limitação dele para receber muitos usuários. Começamos então a estudar uma maneira de contornar isso. E uma das soluções encontradas foi criar um OPAC independente, mas sincronizado, que possa receber toda a carga de uso sem sobrecarregar o sistema principal.
Desenvolvemos um software livre utilizando o ElasticSearch e PHP, muito inspirado no Vufind. O ElasticSearch, na minha opinião, é a melhor ferramenta de criação de índices e recuperação da informação no momento e PHP foi escolhida por ser uma linguagem simples, mas que é poderosa o suficiente.
A idéia principal por tras é pegar os registros MARC e transformá-los em JSON (formato padrão utilizado no Elasticsearch). Para os nomes dos campos, utilizamos o padrão schema.org. A vantagem em utilizar o Schema.org é que é um formato de metadados estruturados que o google utiliza, melhorando a indexação. O sistema tem em seu cabeçalho, os metadados estruturados no padrão JSON-LD utilizando o Schema.org.
É possível adaptar a aplicação para qualquer formato de entrada de metadados e sistema fonte de informação. E adaptar a interface para essa situação.
Atualmente temos 2 sistemas em produção utilizando esta lógica, ambos com os metadados catalogados em MARC, mas sendo sincronizados e oferendo uma forma alternativa de consulta:
Partituras da Universidade de São Paulo
Biblioteca Digital de Produção Intelectual da Universidade de São Paulo
Ainda não fizemos com o nosso catálogo principal.
Mas posso falar que são muitas as vantagens em indexar o catálogo no Google, mas a principal é ampliar a visibilidade de um acervo que até então o usuário teria que fazer uma busca individual em cada catálogo para saber que alguma instituição tem a obra que ele precisa. Essa lógica altera um pouco o fluxo de sistemas de busca federada.
Uma limitação ainda é que não controlamos totalmente o que é indexado, então não é possível garantir que o google irá indexar todos os seus conteúdos. Há estudos que mostram que o google tende a indexar somente uma porcentagem do conteúdo dos sites e nunca tudo. Então esta pode ser uma limitação importante a ser considerada.
Deixe uma resposta