Estatísticas do catálogo a partir dos registros MARC

Em muitas situações, é necessário conseguir fazer estatísticas do catálogo, ou mesmo, é desejável fazer um levantamento para entender melhor a sua coleção. Este post vai mostrar uma estratégia para que se possa conseguir estatísticas de maneira bem simples.

1º Passo: Conseguir os registros MARC

Conseguir uma cópia do seu catálogo em formato MARC. A maioria dos bons sistemas hoje exporta em formato MARC. Mesmo sistemas que não exportem em MARC podem ser usados neste caso, mas terá que entender como o sistema exporta e como conseguir extrair dados.

2º Passo: Baixar e instalar o MarcEdit

O MarcEdit é um editor de registros MARC bem eficiente, pode ser baixado em: http://marcedit.reeset.net/

3º Passo: Extrair dados

O MarcEdit tem uma ferramenta para transformar registros em CSV. O caminho para acessar é Tools > Export > Export Tab Delimited Records

Aqui acredito que explicar a lógica é mais importante do que dar uma receita pronta. Os passos para exportação são: escolher o arquivo MARC de origem, escolher o nome e caminho do arquivo de destino, escolher quais campos serão exportados e como serão exportados.
Para escolher quais estatísticas podem ser feitas no catálogo, primeiramente temos que pensar o que pode se agrupado. Se pensarmos por exemplo no campo título, não é possível fazer nenhum tipo de estatística usando ele, mas ele por ser útil para criar um gráfico de rede, por exemplo. Há também campos repetitivos, que você escolhe o separador e o MarcEdit coloca todos os campos em uma só coluna. Mas aqui como vamos ficar só nas estatísticas mais simples, vamos pensar em campos que pode ter valores repetidos, por exemplo, o ano de publicação. O campo normalmente do ano de publicação é o 260c. O resultado dessa exportação é um arquivo de texto como:

260c
1985
1987
2000
2013
2012
1985
1987

É bem simples lidar com esse tipo de dado, encarando cada um dos registros como uma linha. Mas precisamos tomar um cuidado aqui. Ao utilizar os campos abaixo de 900, estaremos fazendo estatísticas dos registros. Caso precise fazer estatísticas dos exemplares, terá que escolher os campos em que os exemplares são registrados, normalmente algum 9XX ou para ter uma maior precisão, deverá conseguir filtrar os registros que não tenham exemplares.

Também é possível combinar dados, tornando seu gráfico mais complexo. É possível, por exemplo, combinar o ano de publicação com o idioma da publicação (no exemplo, imaginamos que o valor está no campo 041a, apesar de saber que este não é o campo mais indicado para este valor), ficaria algo assim (é recomendável escolher o tab como separador):

260c -> 041a
1987 -> por
1985 -> por
2014 -> eng

4º passo: Tratar os dados

Este é um passo opcional, mas te permitirá verificar a qualidade dos dados de seu catálogo, além de deixar o gráfico mais correto. Em muitos casos, poderá haver problemas como erros de digitação, capitalização ou outras questões que podem influenciar o gráfico que você precisa gerar, para identificar rapidamente erros, recomendamos o software OpenRefine ( http://openrefine.org/ )
Por exemplo, caso queria fazer um gráfico por editora, temos os dados:

260b

EDUSP
EDUSP – USP
EDUSP/USP
Edusp

O OpenRefine ajuda a identificar dados semelhantes e permite correção em grandes lotes. Facilita muito a vida.

5º passo: Sumarizar e criar gráficos

Há duas ótimas ferramentas para sumarizar e criar gráficos. A primeira é o Excel, utilizando as tabelas dinâmicas. E recomendo uma segunda, mais fácil, chamada Tableau Public. Ele tem uma limitação na versão gratuita de somente salvar online e de maneira publica seu dado, mas é uma ferramenta bastante completa. Nos dois casos, é possível fazer diversos tipos de gráficos e combinar tipos de dados e fazer gráficos mais complexos.

Caso tenha alguma dúvida, pode entrar em contato comigo que ajudo na medida do possível: trmurakami EM gmail.com

1 pensamento em “Estatísticas do catálogo a partir dos registros MARC”

  1. Olá Murakami, parabéns pelo texto! É muito raro encontrar fora de ambientes controlados e geralmente acadêmicos, pesquisas, textos e outros produtos de informação feito a partir do catálogo. Onde trabalho (UFABC), estamos tentando desenvolver estatísticas sobre a nossa própria produção (Nosso catálogo), para tentar visualizar de maneiras diferentes e até mesmo ter ferramental para arrumar o que for necessário. Mas eu acabo passando longe do MARC para isso. Tenho usado SQL (apanhando muito dessa língua estrangeira) no programa SQL developer (que acessa diretamente nossas tabelas – Utilizamos o Sistema Sophia para gerenciamento das bibliotecas). O resultado para métricas de dados que podem ser agrupados é bastante satisfatório com pesquisas simples, e sem necessidade de fazer qualquer modelagem dos dados para esses casos. Depois a exportação para o excel também é bastante natural. Um desafio que me propus ontem foi de tentar relacionar de alguma maneira os dados sobre o que as pessoas pesquisam no terminal de consulta (o sistema guarda essa informação) com o que foi indexado. O volume de dados é muito grande e meu conhecimento das ferramentas muito pequeno, mas está ficando interessante.

    Cordialmente,

Deixe uma resposta