Proposta de blockchain para as bibliotecas

[Parte 1]

Uma das coisas mais imbecis que existe na biblioteconomia é a duplicidade de trabalho de processamento técnico. Imbecil porque implica em dispêndio de recursos e perda de tempo. Eu gosto de pensar assim: supomos que a gente viva num planeta ideal e que neste lugar toda vez que um novo livro é publicado ele receba no ato de impressão os dados necessários para o controle bibliográfico em diversas bibliotecas ao redor desse mundo. Esses dados poderiam ser chamados de “catalogação na fonte” (que para um leigo seria uma caixinha retangular normalmente aparecendo nas páginas iniciais). Assim que os dados principais são registrados pela própria editora (título, autor, editora, ano), um grupo de bibliotecários especialistas poderia participar do processo de inventário atribuindo outros dados secundários, mas também importantes (categorias de assuntos, controle de autoridade, etc). De modo que uma vez finalizado, o livro poderia circular no mercado, e eventualmente ser incorporado ao depósito legal do país e bibliotecas, utilizando como base os dados impressos ali, na sua concepção.

Isso exigiria um esforço coletivo entre editores e esse grupo de bibliotecários, que no meu país ideal poderia ser simplesmente um grande prédio, com um número razoável de funcionários bibliotecários e especialistas, capazes de processar o volume da produção nacional e com a competência necessária para que esse trabalho pudesse ser distribuído sem a necessidade de replicação em repartições menores da cadeia de suprimento do livro (e demais documentos): o editor tem um livro no prelo; ele envia o conteúdo confidencial para avaliação desses bibliotecários, que em tempo hábil confirmam os dados oferecidos pelo editor e devolvem junto outros dados que serão finalmente incorporados ao livro finalizado, comercializável.

Esse cenário em tese existe e está traduzido na própria catalogação na fonte, no escritório de emissão do ISBN e algum ou outro sistema cooperativo de controle bibliográfico. Mas ele é um tanto quanto ficcional quanto o storytelling acima, já que bibliotecários não confiam nessa catalogação na fonte, não conseguem acompanhar o controle de autoridade e manuais da BN, defendem a especificidade de suas coleções e usuários, e invariavelmente acabam refazendo todo ou parte do trabalho de processamento técnico do um livro antes de incorporá-lo a seus acervos.

Qualquer biblioteca que você conheça fatalmente vai ter pelo menos 50% de seu efetivo dedicado ao processamento técnico. Ainda que a maior parte desses dados possa ser importada hoje, por meio de protocolos de interoperabilidade, os bibliotecários catalogadores permanecem lá, engordando o efetivo. De modo que, me parece, a conta não fecha: a duplicidade de trabalho está sendo feita em escala tão ampla e demanda tanto tempo que praticamente elimina a necessidade da catalogação na fonte e do compartilhamento de registros processados anteriormente. Tudo está sendo feito como se estivesse sendo feito do zero. Esse é um dado importante porque vai entrar em choque com qualquer mentalidade de gestão que esteja disposta a eliminar o trabalho de catalogação local por completo, utilizando como referência uma grande central de controle bibliográfico na origem.

Pois bem, os principais softwares de automação de biblioteca oferecem de fato algum nível de interoperabilidade, requisito primordial no checklist de qualquer processo de licitação e compra. Ao longo dos anos iniciativas de padronização e interoperabilidade de dados tomaram conta de artigos e congressos da área, salas de aula dos curso de biblioteconomia, e protocolos como marc, aacr, Z39.50, rdf, sparql, bibframe, entre tantos outros, testam a capacidade de memorização de qualquer bibliotecário que deseja passar em concurso público, mas pouco fizeram para efetivamente reduzir a redundância de trabalho.

Um modelo de compartilhamento bem conhecido aqui no Brasil é a rede Pergamum. Mas se vocês buscarem por um título qualquer nessa rede, que engloba todas as bibliotecas que fazem parte do grupo, verão que alguns dados como classificação são bastante distintos entre diversas bibliotecas, o que indica, de alguma forma, duplicidade de trabalho ou necessidade de refino de trabalho similar realizado anteriormente. Isso é perfeitamente justificável, pois como disse acima, muitos bibliotecários catalogadores vão defender as necessidades pontuais de suas coleções e usuários, explicar que não possuem orientações e manuais compatíveis com as agências internacionais que utilizam o aacr2, bem como estarem trabalhando com materiais genuinamente novos, que demandam sim um processamento do zero.

Mas duplicidade de trabalho talvez nem seja o problema maior. O ponto principal é que a) no Brasil não possuímos uma entidade capaz de centralizar o controle bibliográfico e b) não possuímos uma base de dados ou rede verdadeiramente aberta capaz de prover esses dados para todas as bibliotecas.

No primeiro caso minha sugestão particular é simplesmente centralizar a catalogação, mas em um processo gradual de libertação do controle bibliográfico exaustivo, abrindo caminho para inteligência artificial e deep learning (quem explica isso melhor é o fabiano caruso). Ou seja, os dados principais se mantêm porque são definitivos (autor, título, ano, editora) e os dados de indexação seriam apenas uma camada leve de representação (IA define depois a recuperação desses itens nos catálogos locais). No segundo caso, basta tomar como exemplo a oferta do z39.50, que é inexistente, exceto pela Unesp e algum ou outro esforço individual aqui e ali que possibilita a abertura de exportação dos dados, mas que por conta de infraestrutura institucional, prefere manter o protocolo fechado (como é o caso da BN/Sophia). Além disso, o fato de esses dois pontos serem deficientes, impede a criação de um verdadeiro catálogo coletivo nacional, útil ao cidadão, que englobasse os dados das principais bibliotecas públicas e universidades do país.

O panorama é esse: não existe no Brasil um arquivo central de metadados bibliográficos, distribuído, aberto. [existem redes internas como pergamum, sophia, ou o modelo da OCLC lá fora, mas estes não contam porque são consórcios pagos ou detentores dos metadados como produtos de suas empresas. O protocolo não é neutro e algumas vezes permitem importação, mas não exportação dos dados. A questão da descentralização é crucial porque indica que pode existir uma rede aberta, que não é pergamum, que não é oclc, que não cobra assinatura]

É aqui que entra o blockchain como solução.

—–

[parte 2]

Blockchain pode ser um pouco difícil de explicar inicialmente, mas pensem nele como o nosso livro-tombo da biblioteca. Ou até mesmo o próprio catálogo de fichas remissivas. O blockchain é uma base de dados de registros ordenados em sequência, onde cada bloco contém um carimbo de data/hora e está ligado a um bloco anterior. Existem blockchains públicas que qualquer pessoa pode acessar e incluir novos dados (proposta nova, bibframe melhorado, não depende da LoC ou BN) e existem blockchains privadas usadas em uma organização ou consórcio (pensem aleph, sophia, rede pergamum ou oclc).

As informações registradas não podem ser apagadas, exceto por convenção de uma maioria de usuários. O armazenamento de dados não é propriedade de ninguém, é controlado por usuários e não é governado por terceiros ou uma instância reguladora central (gatekeepers).

[Mesmo que os bibliotecários adotassem um blockchain com necessidade de permissões, as partes aprovadas receberiam uma credencial de participação que lhes permite postar na cadeia de blocos. A credencial de participação poderia ser emitida por uma autoridade (BN, CFB, sei lá), ou coletivamente, através de um processo de votação, das partes já participantes. Não é o ideal, mas casa bem com a minha primeira sugestão lá em cima de ter um controle bibliográfico centralizado, num prédião, distribuindo dados abertos, em uma primeira fase de transição, que culminaria por eliminar o controle bibliográfico por completo até IA plena].

Resumindo: blockchain é uma tecnologia para dados descentralizados e auto-reguláveis. Os dados podem ser gerenciados e organizados de forma aberta, permanente, verificados e compartilhados, sem a necessidade de uma autoridade central. É lindo demais. Em termos simplificados, o que acontece no blockchain é que quando um catalogador finaliza um registro, ele fica visível pra todos na rede, imutável, como se fosse um grande google doc compartilhado. Um novo registro, se for idêntico a um anterior, não pode sobrepor (problema do double spending resolvido pelo bitcoin). A atualização ou incremento de um registro original precisaria do consenso da comunidade. Esse blockchain seria alimentado por qualquer bibliotecário que participa da rede trabalhando em sua biblioteca de origem, e se necessário, poderia ser supervisionado/validado por um grupo de especialistas.

Então na minha cabeça o blockchain pode resolver no médio e longo prazo o problema da duplicidade de trabalho e do controle bibliográfico nacional. A proposta é: descentralizar o modelo de consórcio de dados do pergamum ou da oclc. Sendo que no brasil a gente nem mesmo chegou na fase de ter uma oclc ou um verdadeiro catálogo coletivo nacional, então poderemos pular direto pra fase de ter um protocolo estilo z39.50 funcional, independente da infraestrutura local das bibliotecas.

Na prática isso pode ser feito dentro de poucos anos ou meses, com a consolidação da infraestrutura dos blockchain no modelo da appstore: uma camada operacional onde desenvolvedores poderão criar aplicativos. Pode surgir uma blockchain bibliotecária global, mas acho que a pessoa mais indicada para tratar disso no Brasil é o Fabiano Caruso, com o aporte de algum desenvolvedor, para criar esse software, e tornar o blockchain público. Esse sistema seria acessível a qualquer organização que desejar, sem despesas. E então um grupo como o SNBP ou a própria BN poderia ampliar a adesão ao protocolo, por meio de manuais simplificados. Eventualmente outras empresas, que já existem no ramo dos softwares de automação, poderão criar soluções paralelas para inclusão e importação/exportação dos dados. Mas de alguma maneira, sendo esse blockchain efetivo, ele tende a eliminar a necessidade de softwares com módulos de catalogação.

Claro que isso é uma tecnologia complexa e vai esbarrar nos mesmos problemas que todos as outras iniciativas anteriores (barreiras políticas e comerciais, basicamente). Já estamos nessa seara há tanto tempo que sinceramente, nem dá pra se animar muito (tem algo mais simples que não funciona em bibliotecas como deveria do que ISBN e código de barras?). Mas é inegável que é outra oportunidade de fazer algo bem feito, decente, que funcione de fato.

Existem algumas outras aplicações do blockchain às bibliotecas, eu estou estudando isso melhor e me preparando pro que está por vir. A conferir.

4 pensamentos em “Proposta de blockchain para as bibliotecas”

  1. Olá! Muito legal o texto, tenho muito interesse em um catálogo mais coletivo, mas mais do que um catálogo mais coletivo, eu sonho com uma maneira de ter o menor números de buscadores possíveis para o meu usuário tentando atender a maior quantidade possível de recursos simultaneamente. Em ambos os casos, tanto para oferecer acesso ao catálogo quanto para se fazer um catálogo coletivo confiável a questão se estende muito além do que conseguir uma linguagem artificial comum a todos, quer sejam protocolos, linguagens de programação, etc. O grande empecilho para viabilizar essas coisas todas, é que por mais que os comunicantes estejam usando a mesma linguagem (o z39.50, por exemplo), os “sotaques” e as regionalidades se mantém. Consultando catálogos coletivos de softwares nacionais, como o do pergamum, o do PHL, ou o do Sophia, é fácil ver como o entendimento sobre o que representa uma determinada obra muda muito de um local para o outro. E não me refiro a descrições temáticas das obras, mas às informações bibliográficas, estampadas de maneira exatamente igual em todos os exemplares da mesma obra, recebe leituras diversas entre os entes catalogadores. Não vejo isso como algo necessariamente negativo – em alguns momentos é negativo sim – mas é uma característica que pode até mesmo ser uma vantagem.
    Quem sabe com aplicação de inteligência artificial, machine learning, etc, podemos avançar um ponto em que seja possível de maneira automatizada percorrer essas diversas versões / visões / interpretações sobre o que é aquela obra e surgir com algo novo?

    PS: Apenas como curiosidade: Nosso catálogo (biblioteca universitária) apresenta em torno de 1% das buscas em campos de representação temática. A maioria das buscas são por autor.

  2. Já trabalhei com catalogação na USP, onde fazemos catalogação copiada de outras instituições, quando não encontramos o mesmo material no nosso próprio catálogo gigantesco, ironicamente chamado Dédalus. Claro que é melhor copiar 40 registros do que fazer 40 registros do zero, mas, na minha percepção, o que demora mesmo é a análise do conteúdo e a indexação. E isso nem sempre dá pra aproveitar de outra instituição. Nesse aspecto, o controle vocabular às vezes atrapalha; seria melhor termos o assunto descrito em linguagem natural em algum lugar. Na USP, com tantas possibilidades de encontrar já pronta a droga da catalogação, ainda é surpreendentemente comum encontrar o mesmo material catalogado várias vezes no sistema. Por quê? Porque alguém achou mais fácil fazer de novo do que procurar direito; porque esse mesmo alguém encontrou o registro, mas não reconheceu (e aí a culpa pode ser até de outro alguém); porque quem faz o trabalho é alguém com formação deficiente (muitas vezes nem é bibliotecário). Outro problema: embora o software permita copiar um registro parecido e editar os dados (o que é uma mão na roda), essa funcionalidade foi tirada do sistema, porqOu seja, além de catalogação cooperativa, às vezes falta competência gerencial. Uma observação: para filmes, gravações musicais e imagens, é muito difícil aproveitar catalogação de outras instituições, simplesmente porque as normas de catalogação que geralmente usamos estão erradas.

    1. (…) embora o software permita copiar um registro parecido e editar os dados (o que é uma mão na roda), essa funcionalidade foi tirada do sistema, porque as pessoas faziam uma confusão dos diabos.

Deixe uma resposta