Lista com os 88 livros censurados na ditadura militar (1964-1985)

Na internet existem muitas reportagens sobre a lista de livros censurados no período da ditadura, mas é difícil encontrar a lista propriamente. O livro Repressão e resistência — Censura a livros na ditadura militar (Sandra Reimão, Edusp/FAPESP, 2011) reconhecidamente apresenta a mais completa lista de obras submetidas à censura. Mas para conhecer os livros, só comprando o metalivro (link acima).

O Levantamento bibliográfico sobre censura nos meios de comunicação da Biblioteca de Pós-Graduação da Escola de Comunicação da UFRJ foi compilado em 1985 e apresenta 428 títulos, referentes ao material cedido pelos sindicatos de editores e escritores àquela biblioteca. Na Listagem da Seção: Censura Prévia — Série: Publicações da Divisão de Censura de Diversões Públicas — DCDP organizada pelos funcionários do Arquivo Nacional de Brasília constam 561 títulos, sendo 470 livros e 91 revistas. A Lista de livros proibidos pelo Ministério da Justiça (1964–1979) elaborada por Maria Mercedes Otero (tese de 2003 da UFPE), apresenta 520 títulos.

Estes levantamentos serviram de base para a pesquisa de Kelly Lima, “Onde estão os livros censurados?: ainda os efeitos de 64 nas coleções de biblioteca”, dissertação de mestrado defendida na UFF em 2016. Lima selecionou 88 livros de não-ficção censurados entre 1964 e 1985, a partir das listas mais abrangentes (ficção e não ficção, livros e revistas). As três listas podem ser consultadas como apêndice da dissertação (link acima). Abaixo os 88:

1 Actas tupamaras: uma experiência de guerrilha urbana no Uruguai
2 ALBUQUERQUE, J. A. Guilhon Movimento estudantil e consciência
3 ALBUQUERQUE, J. A. Guilhon Classes médias e política
4 ALMEIDA, Mauro U.S.A : civilização empacotada
5 ALTHUSSER, Louis La filosofia como arma de la revolucion
6 ALTHUSSER, Louis Marxismo
7 ALVES, Marcio Moreira O despertar da revolução brasileira
8 ALVES, Marcio Moreira Tortura e torturados
9 CABRAL, Alexandre Um português em Cuba
10 CARDOSO, Fernando Henrique Autoritarismo e democratização
11 CASTRO, Fidel et al. A aventura boliviana : Che Guevara
12 CHE GUEVARA, Ernesto Nossa luta em Sierra Maestra
13 CHE GUEVARA, Ernesto Socialismo y el hombre em Cuba
14 CONCEGHI, Manilo; BORIS Ivan. Solano Lopez,o Napoleão do Prata
15 CUBA. Ministério de Educação A educação em Cuba
16 CUNHAL, Álvaro Rumo à vitória
17 DAVID, Moisés MO : nova vida revolucionária
18 DEBRAY,Regis Revolução na revolução
19 FANON, Frantz Os condenados da terra
20 FANON, Frantz Sociologia de una revolucion
21 FONSECA, Rubem Feliz Ano Novo
22 GIAP, Nguyen Guerra del pueblo : exercito del pueblo
23 GIAP, Nguyen Lucha armada : fuerza armada
24 HERZOG, Philipe A união popular e o domínio da economia
25 HITE, Shere O relatório Hite
26 HUBERMAN, Leo; SWEEZY, Paul H. Socialismo em Cuba
27 HUSTON, Oliver Os degenerados da terra
28 KUCINSKI, Bernardo; TRONCA, Ítalo La violence militaire au Bresil
29 LAURENT, Faure Barran Os comunistas e o desporto
30 LAZARENTO Os sindicatos e a gestão de empresas
31 LENINE A doença infantil do esquerdismo no comunismo
32 LENIN, Vladimir Ilitch A catástrofe iminente e os meios a conjurar
33 LENINE Citações de Lenine sobre a revolução proletária e a ditadura
34 LENIN, Vladimir Ilitch O imperialismo e a cisão do socialismo
35 LENIN, V.I. Sobre a caricatura do marxismo e o economismo imperialista
36 LEVY STRAUSS Estruturalismo
37 LÖWY, Michael Método dialético e teoria política
38 MAES, Pierre A concepção de superpotência
39 MAO, TSÉ-TUNG Citações do presidente Mao Tsé-Tung
40 MAO, TSÉ-TUNG Obras escogidas
41 MIROW, Kurt Rudolf A ditadura dos carteis
42 MOÍSES, J. Alvaro et al. Contradições urbanas e movimentos sociais
43 MOURÃO FILHO, Olympio. A verdade de um revolucionário
44 MOVIMENTO Comunista InternacionalLa guerre popular em la Brasil
45 MURARO, Rose Marie A automação do homem
46 MURARO, Rose Marie A mulher na construção do mundo futuro
47 MYRDAL, Jan Uma aldeia da China Popular
48 O’CONNOR, James U.S.A : a crise do estado capitalista
49 POLARI, Alex Meu companheiro querido
50 PORFÍRIO, Pedro Canteiro de obras
51 PORFÍRIO, Pedro O belo burguês
52 POULANTZAS, Nicos. A crise das ditaduras : Portugal, Grécia e Espanha
53 PRADO JR., Caio A revolução brasileira
54 PRADO JR., Caio O mundo do socialismo
55 PREOBRAJANSKY; DEUKSARINE ABC do comunismo
56 ROJO, Ricardo Meu amigo Che
57 Revolucion política del partido comunista en Colombia
58 RIBEIRO, Darcy A universidade necessária
59 ROVETTA, Vicente El direcho a rebelar-se
60 SERRA, José et. al. América Latina : ensaios de interpretação econômica
61 SISSON, Roberto O gênio nacional da história do Brasil
62 SODRÉ, Nelson Werneck História militar do Brasil
63 SOFRI, Gianni O modo de produção asiático
64 SOLLERS, Philippe La teoria revolucionária
65 STRADA, Ezequiel M Mi experiência cubana
66 TERESHOVA, Unikelajeva O papel da mulher na sociedade: do problema
67 Textos de Che Guevara
68 TOURINHO, Nazareno Lei é lei e está acabado
69 TROSTKI, Leon La internacional comunista desde la morte de Lenine
70 URBANO, Miguel Opções da revolução na América Latina
71 VAN THAL, Hoang Guera de guerrilhas em Vietnam
72 ALMEIDA, Hélio de. Basta bastardos
73 BADIA, Joan Sariol Petita historia de la guerra civil
74 BRANDEN, Nathanie. Quem é Ayn Ran?
75 CARMELLO, Amadeu Trinta e quatro anos de desgoverno no Brasil
76 CHATELET, François Logos e práxis
77 EDWARDS, Jorge Desde la cola del dragón
78 GARROCHO, Walter de O. A revolução ganha a rua
79 GUILLEN, Abraham Estrategia de guerrilla urbana
80 KISHERMAN, Natalio Servicio social pueblo
81 LAUPINAITIS, Meldutis Eu acuso: genocídio soviético
82 POERNER Arthur José O poder jovem
83 QUADROS, Jânio Os dois mundos das três Américas.
84 RAMIREZ, Ricardo Autobiografia di uma Guerrilla
85 RAND, Ayn A nova esquerda: a revolução antindustrial
86 WILCZYNSKI, J. The economics of socialism.
87 Cinco anos : julgamento político na União Soviética
88 RAMIREZ, Ricardo Autobiografia di uma Guerrilla

Visualização de dados – O exemplo da execução orçamentária da USP

Visualização de dados é uma área muito fascinante. Facilita bastante a compreensão de dados mais complexos, resumindo eles em uma imagem que é mais fácil de ser interpretada. Vou mostrar um exemplo do que é possível fazer, de maneira muito rápida (não demora 20 min), usando a execução orçamentária da USP (Ano 2017), que está disponível aqui.

Utilizei a ferramenta Tableau Public, que é bem intuitiva e fácil de utilizar e tem uma versão gratuita, com algumas limitações.

Acessar os dados interativos no site do Public Tableau.

Fonte do recurso:

Grupo orçamentário:

Estes são só um exemplo, veja todos aqui.

Acredito que podemos ajudar a sociedade a interpretar melhor dados públicos que estão disponíveis mas que são difíceis de ser compreendidos no formato em que estão disponibilizados. Ferramentas para isso não faltam.

Chega dessa babaquice de assediar bibliotecárias

[do original #TimesUp on Harassing Your Public Librarian, de Katie MacBride. Livre tradução de Dora e Branca]

Bibliotecárias lidam diariamente com assédio sexual em seus locais de trabalho.

O homem em frente ao balcão de referência pediu uma senha de acesso aos computadores e depois se inclinou para a frente com segundas intenções: “Você já viu o Jornada nas Estrelas original?

Imprimi a senha e sacudi a cabeça. “Não. Você está procurando os DVDs?”

“Não”, disse ele. “Você é idêntica a uma atriz da série que apareceu na lista das “Mulheres mais bonitas de Jornada nas Estrelas’! Você é a cara dela!”

Ele começou a me olhar com cobiça, com uma intimidade atípica. Tinha um olhar esquisito de tiozão, aparentando ter quase 60 anos.

Lidar com perguntas desconfortáveis dos usuários é muito comum para mim e para a maioria das bibliotecárias que lidam com o público. Decidi que a melhor estratégia seria um breve aceno (reconhecer que você ouviu o comentário para que ele não se repita) e um curto, “OK, existe algo na biblioteca que posso ajudá-lo a encontrar?”

Não havia. Ele caminhou até os terminais de consulta e eu teria esquecido a interação se ele não tivesse reaparecido alguns minutos depois.

“Você pode me ajudar a imprimir uma coisa?”

Assenti com a cabeça e o acompanhei de volta para o computador. Na tela havia uma foto de uma atriz loira e uma descrição feita pelo autor da “Lista das mais gostosas”. Lia-se, em parte, “A melhor parte dela é a fantasia sexual de ‘Eu não conheço as sensações humanas. Por favor, me ensine a beijar, abraçar, [insira aqui o ato sexual depravado]’. Oh, sim, por favor!”

O usuário olha excitadamente da tela para mim.

“Veja! Você parece exatamente com ela!”

Dei de ombros.

“Bem, eu quero imprimir essa foto dela”. Ele insistiu. “Vocês tem uma impressora a cores?”

Nós tínhamos. Mostrei-lhe como ampliar e imprimir a imagem. Ele deixou a biblioteca pouco depois, acenando a foto para mim e piscando antes de sair.

Quando o movimento #TimesUp surgiu (Time’s Up é um movimento contra o assédio sexual fundado por celebridades de Hollywood), fiquei satisfeita ao ver o foco no setor de serviços, onde parte significativa do trabalho é ser simpática e estar disponível para clientes e usuários. Porque a verdade é que toda mulher/feminina/cis/trans/bibliotecária tem dezenas de histórias como esta; incômodas, mas inofensivas interações de assédio. Nós reviramos os olhos na sala de funcionários, reclamamos a nossos amigos e pessoas próximas depois de ofensas particularmente flagrantes, mas tendemos a considerar essas ofensas como uma parte infeliz porém inevitável do trabalho. Uma das minhas ex-colegas descreveu perfeitamente o assédio na biblioteca como: “Eu apenas me lembro do sentimento ruim de ser um público cativo”. Afinal, o assédio sexual é sobre poder e vulnerabilidade e um público cativo – como a bibliotecária que não pode se recusar a mostrar ao homem como usar uma impressora – é um público vulnerável.

Muitas vezes, discussões sobre o assédio sexual no local de trabalho focam nas interações entre funcionários e supervisores. Há uma boa razão para isso; os supervisores têm influência, quando não têm o controle total, sobre quem é contratado e demitido. Quando se trabalha no setor de serviços, no entanto, manter o cliente satisfeito costuma ser tão importante quanto manter o chefe feliz. O funcionário que não ri da piada do cliente ou se ofende quando perguntado sobre sua vida amorosa é vulnerável a queixas à gerência. As pessoas que não trabalham em setores de serviços podem se surpreender com a rapidez com que não rir de uma piada sobre a aparência de seu uniforme, segundo a vontade do cliente, pode se transformar em queixas ao seu gerente sobre seu mau comportamento; ou como rejeitar um convite para sair pode se transformar em falsas alegações sobre seu suposto terrível desempenho no trabalho.

Normalmente, essas interações ocorrem dentro de uma janela de tempo limitada. Você serve um jantar para o seu assediador, ele faz comentários inapropriados, mas depois, inevitavelmente, vai embora. Mas e se o usuário nunca precisasse ir embora? E se alguém pudesse entrar no seu local de trabalho, fazer-lhe quantas perguntas quisesse sobre praticamente qualquer assunto, desde o momento em que as portas se abrem de manhã até fecharem à noite?

Funcionárias de bibliotecas públicas são profundamente comprometidas com o acesso. Acreditamos que a biblioteca deve ser aberta a todos e queremos que os usuários se sintam confortáveis ao pedir informações sobre quase qualquer coisa. Você quer informações sobre doenças sexualmente transmissíveis? Sem problemas. Livros sobre sexo tântrico? Por aqui. Nós permanecemos dispostas, amigáveis e acessíveis porque queremos que vocês saibam que não julgamos suas necessidades de informação.

Mas isso também faz do nosso trabalho um terreno fértil para o assédio sexual. Tecnicamente, não há motivo para que um usuário não possa sentar-se em uma mesa vazia e olhar para a bibliotecária o dia todo, pedir ajuda para configurar um perfil de namoro online ou imprimir material explícito. Em muitos casos, não há nada de errado com o comportamento mencionado acima e é isso o que dificulta as coisas. Os bibliotecários resguardam fanaticamente o direito dos usuários de fazerem de tudo, o que torna o assédio sexual tão recorrente nas bibliotecas públicas – até o ponto em que isso se torna um abuso.

Existe um caráter de gênero para o assédio sexual em bibliotecas que é impossível ignorar. Em 2015, a categoria de bibliotecários era composta de uma maioria desproporcional de mulheres (elas representavam 83% de todos os bibliotecários) e, embora o assédio sexual possa acontecer com qualquer gênero, é frequentemente perpetrado contra mulheres. Como diz Kelly Jensen, uma editora contribuinte para a Book Riot e bibliotecária pública: “Quando você trabalha na posição de atendimento ao público, ser mulher é uma desvantagem.” As mulheres não brancas e as pessoas LGBT+ sofrem assédio em taxas particularmente altas. Junte a isso o entusiasmo de todos os bibliotecários (independentemente do gênero) para ajudar e não é difícil ver como a linha entre ter acesso a informações e ter acesso à bibliotecária fornecendo essas informações para você é tênue na mente de algumas pessoas. Às vezes, parece que os homens veem as bibliotecárias como as secretárias da era “Mad Men” que eles nunca tiveram.

A gestão de bibliotecas varia amplamente quando se trata de implementar políticas para lidar com essas situações. A American Library Association não fornece diretrizes ou recursos para lidar com o assédio sexual, seja de usuários ou colegas. Sem essa orientação, cabe às bibliotecas criar políticas individuais para lidar com o assédio de usuários.

Em qualquer cenário de assédio sexual no local de trabalho, não é suficiente apenas conscientizar os funcionários sobre as políticas que os protegem. A gerência também tem de apoiar essas políticas, tomando medidas quando for necessário. Isso nem sempre acontece. Descobri isso em primeira mão quando fui denunciar para meu chefe os constantes assédios por parte de um usuário. Quando relatei esse recente caso de comportamento inadequado, meu chefe perguntou: “Bem, quantos anos ele tem? É possível que você esteja apenas…” Meu chefe se afastou, parecendo implicar que eu estava simplesmente exagerando sobre um homem mais velho que não tinha consciência que estava sendo inapropriado.

Na minha experiência e na experiência de muitas outras bibliotecárias que conheço, a administração geralmente reluta em abordar o problema do assédio sexual – especialmente se for verbal e não físico – pelo medo de gerar repercussões negativas em relação à biblioteca. As bibliotecas públicas necessitam que o público as valorize; quando uma biblioteca de bairro está à beira de ser fechada, muitas vezes os usuários (talvez até os usuários que se envolveram em assédio) se reúnem para nos manter abertas. São cidadãos que aprovam e pagam impostos que mantêm as bibliotecas em atividade. Eu entendo isso. É por isso que passei tantos anos engolindo sapos em relação a comentários sobre como eu realmente pareceria a “bibliotecária sexy” se eu usasse óculos.

Sem padrões formalizados e uma gestão pró-ativa, os bibliotecários fazem o que as pessoas vulneráveis ao assédio sempre fizeram. Nós sussurramos, nós avisamos. Impedimos o usuário que tem a intenção de perseguir a bibliotecária vá até a sala reservada aos funcionários. Se tivermos a sorte de nos depararmos com isso a tempo. Se outros funcionários da biblioteca estiverem presentes naquele momento. Se ele puder ser impedido.

Os bons bibliotecários são alquimistas que transformam as bibliotecas de um edifício com livros e computadores em um vibrante centro de informações e exploração. As bibliotecas precisam dessas pessoas apaixonadas e dedicadas que querem que ela continue existindo. E chegou a hora da American Library Association reconhecer e abordar a realidade do assédio sexual nas bibliotecas. Chegou a hora da gestão de bibliotecas e dos governos das cidades e dos estados aos quais estão afiliadas defenderem inequivocamente o direito das bibliotecárias de atenderem ao público livres de assédio sexual, físico ou verbal. As bibliotecárias apoiam nossas comunidades e é hora de exigir o apoio a elas em troca. Nosso #TimesUp está atrasado.

Proposta de blockchain para as bibliotecas

[Parte 1]

Uma das coisas mais imbecis que existe na biblioteconomia é a duplicidade de trabalho de processamento técnico. Imbecil porque implica em dispêndio de recursos e perda de tempo. Eu gosto de pensar assim: supomos que a gente viva num planeta ideal e que neste lugar toda vez que um novo livro é publicado ele receba no ato de impressão os dados necessários para o controle bibliográfico em diversas bibliotecas ao redor desse mundo. Esses dados poderiam ser chamados de “catalogação na fonte” (que para um leigo seria uma caixinha retangular normalmente aparecendo nas páginas iniciais). Assim que os dados principais são registrados pela própria editora (título, autor, editora, ano), um grupo de bibliotecários especialistas poderia participar do processo de inventário atribuindo outros dados secundários, mas também importantes (categorias de assuntos, controle de autoridade, etc). De modo que uma vez finalizado, o livro poderia circular no mercado, e eventualmente ser incorporado ao depósito legal do país e bibliotecas, utilizando como base os dados impressos ali, na sua concepção.

Isso exigiria um esforço coletivo entre editores e esse grupo de bibliotecários, que no meu país ideal poderia ser simplesmente um grande prédio, com um número razoável de funcionários bibliotecários e especialistas, capazes de processar o volume da produção nacional e com a competência necessária para que esse trabalho pudesse ser distribuído sem a necessidade de replicação em repartições menores da cadeia de suprimento do livro (e demais documentos): o editor tem um livro no prelo; ele envia o conteúdo confidencial para avaliação desses bibliotecários, que em tempo hábil confirmam os dados oferecidos pelo editor e devolvem junto outros dados que serão finalmente incorporados ao livro finalizado, comercializável.

Esse cenário em tese existe e está traduzido na própria catalogação na fonte, no escritório de emissão do ISBN e algum ou outro sistema cooperativo de controle bibliográfico. Mas ele é um tanto quanto ficcional quanto o storytelling acima, já que bibliotecários não confiam nessa catalogação na fonte, não conseguem acompanhar o controle de autoridade e manuais da BN, defendem a especificidade de suas coleções e usuários, e invariavelmente acabam refazendo todo ou parte do trabalho de processamento técnico do um livro antes de incorporá-lo a seus acervos.

Qualquer biblioteca que você conheça fatalmente vai ter pelo menos 50% de seu efetivo dedicado ao processamento técnico. Ainda que a maior parte desses dados possa ser importada hoje, por meio de protocolos de interoperabilidade, os bibliotecários catalogadores permanecem lá, engordando o efetivo. De modo que, me parece, a conta não fecha: a duplicidade de trabalho está sendo feita em escala tão ampla e demanda tanto tempo que praticamente elimina a necessidade da catalogação na fonte e do compartilhamento de registros processados anteriormente. Tudo está sendo feito como se estivesse sendo feito do zero. Esse é um dado importante porque vai entrar em choque com qualquer mentalidade de gestão que esteja disposta a eliminar o trabalho de catalogação local por completo, utilizando como referência uma grande central de controle bibliográfico na origem.

Pois bem, os principais softwares de automação de biblioteca oferecem de fato algum nível de interoperabilidade, requisito primordial no checklist de qualquer processo de licitação e compra. Ao longo dos anos iniciativas de padronização e interoperabilidade de dados tomaram conta de artigos e congressos da área, salas de aula dos curso de biblioteconomia, e protocolos como marc, aacr, Z39.50, rdf, sparql, bibframe, entre tantos outros, testam a capacidade de memorização de qualquer bibliotecário que deseja passar em concurso público, mas pouco fizeram para efetivamente reduzir a redundância de trabalho.

Um modelo de compartilhamento bem conhecido aqui no Brasil é a rede Pergamum. Mas se vocês buscarem por um título qualquer nessa rede, que engloba todas as bibliotecas que fazem parte do grupo, verão que alguns dados como classificação são bastante distintos entre diversas bibliotecas, o que indica, de alguma forma, duplicidade de trabalho ou necessidade de refino de trabalho similar realizado anteriormente. Isso é perfeitamente justificável, pois como disse acima, muitos bibliotecários catalogadores vão defender as necessidades pontuais de suas coleções e usuários, explicar que não possuem orientações e manuais compatíveis com as agências internacionais que utilizam o aacr2, bem como estarem trabalhando com materiais genuinamente novos, que demandam sim um processamento do zero.

Mas duplicidade de trabalho talvez nem seja o problema maior. O ponto principal é que a) no Brasil não possuímos uma entidade capaz de centralizar o controle bibliográfico e b) não possuímos uma base de dados ou rede verdadeiramente aberta capaz de prover esses dados para todas as bibliotecas.

No primeiro caso minha sugestão particular é simplesmente centralizar a catalogação, mas em um processo gradual de libertação do controle bibliográfico exaustivo, abrindo caminho para inteligência artificial e deep learning (quem explica isso melhor é o fabiano caruso). Ou seja, os dados principais se mantêm porque são definitivos (autor, título, ano, editora) e os dados de indexação seriam apenas uma camada leve de representação (IA define depois a recuperação desses itens nos catálogos locais). No segundo caso, basta tomar como exemplo a oferta do z39.50, que é inexistente, exceto pela Unesp e algum ou outro esforço individual aqui e ali que possibilita a abertura de exportação dos dados, mas que por conta de infraestrutura institucional, prefere manter o protocolo fechado (como é o caso da BN/Sophia). Além disso, o fato de esses dois pontos serem deficientes, impede a criação de um verdadeiro catálogo coletivo nacional, útil ao cidadão, que englobasse os dados das principais bibliotecas públicas e universidades do país.

O panorama é esse: não existe no Brasil um arquivo central de metadados bibliográficos, distribuído, aberto. [existem redes internas como pergamum, sophia, ou o modelo da OCLC lá fora, mas estes não contam porque são consórcios pagos ou detentores dos metadados como produtos de suas empresas. O protocolo não é neutro e algumas vezes permitem importação, mas não exportação dos dados. A questão da descentralização é crucial porque indica que pode existir uma rede aberta, que não é pergamum, que não é oclc, que não cobra assinatura]

É aqui que entra o blockchain como solução.

—–

[parte 2]

Blockchain pode ser um pouco difícil de explicar inicialmente, mas pensem nele como o nosso livro-tombo da biblioteca. Ou até mesmo o próprio catálogo de fichas remissivas. O blockchain é uma base de dados de registros ordenados em sequência, onde cada bloco contém um carimbo de data/hora e está ligado a um bloco anterior. Existem blockchains públicas que qualquer pessoa pode acessar e incluir novos dados (proposta nova, bibframe melhorado, não depende da LoC ou BN) e existem blockchains privadas usadas em uma organização ou consórcio (pensem aleph, sophia, rede pergamum ou oclc).

As informações registradas não podem ser apagadas, exceto por convenção de uma maioria de usuários. O armazenamento de dados não é propriedade de ninguém, é controlado por usuários e não é governado por terceiros ou uma instância reguladora central (gatekeepers).

[Mesmo que os bibliotecários adotassem um blockchain com necessidade de permissões, as partes aprovadas receberiam uma credencial de participação que lhes permite postar na cadeia de blocos. A credencial de participação poderia ser emitida por uma autoridade (BN, CFB, sei lá), ou coletivamente, através de um processo de votação, das partes já participantes. Não é o ideal, mas casa bem com a minha primeira sugestão lá em cima de ter um controle bibliográfico centralizado, num prédião, distribuindo dados abertos, em uma primeira fase de transição, que culminaria por eliminar o controle bibliográfico por completo até IA plena].

Resumindo: blockchain é uma tecnologia para dados descentralizados e auto-reguláveis. Os dados podem ser gerenciados e organizados de forma aberta, permanente, verificados e compartilhados, sem a necessidade de uma autoridade central. É lindo demais. Em termos simplificados, o que acontece no blockchain é que quando um catalogador finaliza um registro, ele fica visível pra todos na rede, imutável, como se fosse um grande google doc compartilhado. Um novo registro, se for idêntico a um anterior, não pode sobrepor (problema do double spending resolvido pelo bitcoin). A atualização ou incremento de um registro original precisaria do consenso da comunidade. Esse blockchain seria alimentado por qualquer bibliotecário que participa da rede trabalhando em sua biblioteca de origem, e se necessário, poderia ser supervisionado/validado por um grupo de especialistas.

Então na minha cabeça o blockchain pode resolver no médio e longo prazo o problema da duplicidade de trabalho e do controle bibliográfico nacional. A proposta é: descentralizar o modelo de consórcio de dados do pergamum ou da oclc. Sendo que no brasil a gente nem mesmo chegou na fase de ter uma oclc ou um verdadeiro catálogo coletivo nacional, então poderemos pular direto pra fase de ter um protocolo estilo z39.50 funcional, independente da infraestrutura local das bibliotecas.

Na prática isso pode ser feito dentro de poucos anos ou meses, com a consolidação da infraestrutura dos blockchain no modelo da appstore: uma camada operacional onde desenvolvedores poderão criar aplicativos. Pode surgir uma blockchain bibliotecária global, mas acho que a pessoa mais indicada para tratar disso no Brasil é o Fabiano Caruso, com o aporte de algum desenvolvedor, para criar esse software, e tornar o blockchain público. Esse sistema seria acessível a qualquer organização que desejar, sem despesas. E então um grupo como o SNBP ou a própria BN poderia ampliar a adesão ao protocolo, por meio de manuais simplificados. Eventualmente outras empresas, que já existem no ramo dos softwares de automação, poderão criar soluções paralelas para inclusão e importação/exportação dos dados. Mas de alguma maneira, sendo esse blockchain efetivo, ele tende a eliminar a necessidade de softwares com módulos de catalogação.

Claro que isso é uma tecnologia complexa e vai esbarrar nos mesmos problemas que todos as outras iniciativas anteriores (barreiras políticas e comerciais, basicamente). Já estamos nessa seara há tanto tempo que sinceramente, nem dá pra se animar muito (tem algo mais simples que não funciona em bibliotecas como deveria do que ISBN e código de barras?). Mas é inegável que é outra oportunidade de fazer algo bem feito, decente, que funcione de fato.

Existem algumas outras aplicações do blockchain às bibliotecas, eu estou estudando isso melhor e me preparando pro que está por vir. A conferir.

A perda de memória do Google

Sempre foi uma constante a comparação do google com o trabalho bibliotecário. Nem acho que a antipatia da nossa parte seja justificada, porque simplesmente nunca deu pra competir. Mas me agrada a oportunidade de rever a finalidade do nosso trabalho quando somos confrontados.

Um texto recente que circulou sugere que o google parou de indexar as partes mais antigas da web: você pesquisa uma página antiga, sabendo que ela existiu, tendo um dia a visitado, utilizando os termos de busca corretos, mas mesmo assim o resultado é zero. Do ponto de vista do business deles, fica impraticável indexar tudo uma vez que não vão conseguir associar banners de propaganda à conteúdos desatualizados e obscuros. ok. Mas o insight do autor do texto é sobre seu modelo mental da web, que pra ele seria uma espécie de arquivo permanente do patrimônio intelectual da humanidade. Para que seja útil, a web precisa ser indexada, assim como conteúdo em uma biblioteca. É um insight sensível e importante. O Google, aparentemente, não compartilha essa visão. Malvado.

Isso casa também com a proposta de arquivamento de tweets pela Library of Congress e recente decisão deles de abandonar a coleta total. A proposta inicial seguia o mesmo motivo por que recolhe outros materiais: para adquirir e preservar um registro de conhecimento e criatividade para o congresso e o povo americano. Mas anos se passaram e o cenário das redes sociais mudou completamente, em suma, esse registro virou uma lixarada só, e desistiram.

Ele faz mea culpa, e talvez muito de nós, estamos usando freneticamente e confiando plenamente na infraestrutura global do Google como índice de pesquisa particular para nossas publicações pessoais. Se essa infraestrutura se perde, a gente desaparece junto. É similar ao antigo dilema de organizar e arquivar fotos na web e constantemente ter de migrar de plataforma, do fotolog para albuns do orkut, do flickr para o google photos, do facebook para o instagram.

Para quem produz conteúdo online isso também é crítico, porque além da dificuldade de acompanhar o lastro das nossas publicações, a ausência de indexação permanente causa um impacto direto nas estratégias de SEO. Não é segredo pra vcs que uma das minhas recomendações a todos os autores deste blog é pensar sempre na composição de títulos e conteúdo que sejam atemporais. Ou seja, que façam sentido pelo maior número de anos possível. Tanto é que a maioria dos posts mais visitados aqui ao longo do tempo pode ser lida e fazer sentido agora tal como quando foi escrita e publicada na origem. Quem trabalha em bibliotecas universitárias sabe que muitos artigos só começam a ser citados décadas após sua publicação, então junte mais essa ao dilema do arquivamento contínuo e perpétuo.

Particularmente não tenho muito neura em relação ao acervo retrospectivo, diferente de quem por exemplo continuamente pesquisa pelo próprio nome no google. Só não dá pra pecar por ingenuidade, reclamar das dores do crescimento da esfera pública online: quem confia em corporações privadas para preservar e arquivar memória e herança intelectual e cultural do público?

Assim, por esses e mais motivos, é obvio que precisamos de iniciativas como o Internet Archive e de preservação do lastro e da privacidade digital, blockchain e tal. E de melhores ferramentas de arquivamento e recuperação. E das próprias bibliotecas. Mas é uma transcendência na nossa atuação, já tentei ser exaustivo no livro sobre o futuro da biblio: tudo isso remete à singela raison d’être bibliotecária que é a organização dos registros do conhecimento para fins de recuperação. Sem tentar ser fofinho, mas seguindo esse quadro a gente ainda se sustenta como profissionais relevantes por mais alguns anos, independente de inteligência artificial. É sucesso.

A ridícula ideia de guardar livros ao contrário

Algum tempo atrás apareceram no instagram fotos de estantes cheias de livros dispostos ao contrário (com a lombada pra dentro), seguindo uma proposta de decoração que tem a intenção de reduzir a paleta de cores e “acalmar” um ambiente.

Em primeiro momento podemos todos concordar que a ideia pode ser interessante esteticamente mas impraticável em uma biblioteca de verdade, afinal como encontrar um livro específico ali?

Todo as pessoas são livres pra organizar livros em suas coleções pessoais como bem quiserem. Então a ridícula ideia de guardar livros ao contrário pode ser defendida se ela funciona como uma tática pra saber quais livros faltam ser lidos (como o “want to read” no goodreads, livros com a lombada pra dentro são os que ainda serão lidos, livros com a lombada pra fora são os que já foram lidos) ou simplesmente uma tática para escolher uma próxima leitura aleatoriamente (como as campanhas de “encontro às cegas” que algumas bibliotecas fazem). Existem os extremos onde a apresentação de uma coleção pessoal deseja representar uma intelectualidade que na verdade não existe ou leitores que são tão afetuosos que reconhecem seus livros por tamanho e condição física. Então, fiquem à vontade.

O curioso é que guardar livros com a lombada/espinha voltada pra dentro da prateleira não é um fenômeno recente na história do livro porque nos séculos 17 e 18 os títulos de livros e os autores eram escritos em tinta na borda das páginas, e as lombadas ficavam viradas para dentro para proteger a encadernação em couro. Outra mudança que reforçou esse tipo de disposição foi que os ricos decidiram que ter as bordas das folhas adornadas em ouro daria um certo charme às suas bibliotecas (aqui uma referência sobre a biblioteca real em El Escorial).

Exprimam todo seu desprezo bibliotecário apreciando estas belas fotos (#backwardbooks):

Catalogação semi-automatizada de artigos de periódicos em PDF para MARC

Nosso sonho é viver em um mundo em que as informações são estruturadas na fonte e os metadados são reaproveitados de maneira precisa, pois foram descritos utilizando semântica computacional. Mas ainda estamos longe desta realidade. Porém, já estamos em um momento em que as informações nascem digitais, e por isso, já é possível tirar proveito desta característica. Como nesta nova realidade, reaproveitar conhecimento é a lei, conseguimos utilizar um software bastante completo chamado GROBID (or Grobid) que significa “GeneRation Of BIbliographic Data”. Sua descrição é a seguinte:

“GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured TEI-encoded documents with a particular focus on technical and scientific publications”

Em uma sintese simples, é uma biblioteca que utiliza aprendizado por máquina para extrair, fazer o parsing e re-estruturar documentos científicos em documentos estruturados em um formato TEI. É importante por que estrutura semanticamente para máquinas informações que antes estavam estruturadas somente para humanos. É uma ferramenta bastante utilizada, inclusive por serviços enormes como o ResearchGate.

O que fizemos foi utilizar os web services dela para ao subir um PDF, devolver o resultado em um formato MARC (Aleph Sequencial, compatível com o Software Aleph). É interessante pois é o resultado de toda uma cultura de software livre e remix (pois sem acesso a esses serviços, jamais conseguiriamos fazer algo assim).

O caminho é bastante simples, o nosso programa em PHP sobe o PDF e envia para o web service do Grobid, que estrutura o documento em Formato TEI. O programa então recupera as informações do TEI e estrutura em MARC (Aleph Sequencial), formato usado para poder importar no Aleph.

Por exemplo:

Baixei o PDF do artigo: Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016. E enviei para o Grobid. Se quiserem, podem testar o demo do Grobid (TEI > processFulltext Document). Um pedaço da resposta é:


< sourcedesc >
                < biblstruct >
                    < analytic >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Ronaldo< /forename >
                                < forename type="middle" >Ferreira< /forename >
                                < surname >Araujo< /surname >
                            < /persname >
                        < /author >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Sarah< /forename >
                                < forename type="middle" >Rúbia De Oliveira< /forename >
                                < surname >Santos< /surname >
                            < /persname >
                        
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < orename type="first" >Janyelle< /forename >
                                < forename type="middle" >Mayara< /forename >
                                < surname >Bento< /surname >
                            < /persname >
                        < /author >
                        < title level="a" type="main" >Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016< /title >
                    
                    < monogr >
                        < title level="j" type="main" >AtoZ: novas práticas em informação e conhecimento< /title >
                        < title level="j" type="abbrev" >AtoZ< /title >
                        < idno type="eISSN" >2237-826X< /idno >
                        < imprint >
                            < publisher >Universidade Federal do Parana< /publisher>
                            < biblscope unit="volume" >6< /biblscope>
                            < biblscope unit="issue" >1< /biblscope>
                            < biblscope unit="page" >17< /biblscope>
                        < /imprint >
                    < /monogr >
                    < idno type="DOI" >10.5380/atoz.v6i1.54543< /idno >
                    < note type="submission" >Recebido/Submitted: 15 Ago. 2017; Aceito/Approved: 22 Set. 2017< /note >
                    < note >ARTIGO | PAPER Autor para correspondência/Mail to: Ronaldo Ferreira Araujo< /note > 

Como podemos observar, o Grobid foi bem preciso em identificar informações sobre o artigo. Então, desenvolvemos um programa que recebe esta resposta e transforma em um formato MARC e a resposta fica desta maneira:

000000001 008 L ^^^^^^s^^^^^^^^^^^^^^^^^^^^^^000^0^^^^^d
000000001 0247 L $$a10.5380/atoz.v6i1.54543$$2DOI
000000001 040 L $$aUSP/SIBI
000000001 0410 L $$a
000000001 044 L $$a
000000001 1001 L $$aAraujo, Ronaldo Ferreira$$5$$7$$8$$9
000000001 24510 L $$aMediação da informação e comunicação política no Facebook$$bdesempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016
000000001 260 L $$a$$bUniversidade Federal do Parana$$c
000000001 300 L $$ap. –
000000001 500 L $$a
000000001 5101 L $$aIndexado no:
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 7001 L $$aBento, Janyelle Mayara$$5$$7$$8$$9
000000001 7001 L $$aSantos, Sarah Rúbia De Oliveira$$5$$7$$8$$9
000000001 7730 L $$tAtoZ: novas práticas em informação e conhecimento$$x2237-826X$$hv. , n. , p. – , AAAA
000000001 8564 L $$zClicar sobre o botão para acesso ao texto completo$$uhttps://dx.doi.org/10.5380/atoz.v6i1.54543$$3DOI
000000001 945 L $$aP$$bARTIGO DE PERIODICO$$c01$$j$$l
000000001 946 L $$a
000000001 BAS L $$a04
000000001 FMT L BK
000000001 LDR L ^^^^^nab^^22^^^^^Ia^4500

É claro que este não é o registro final, apenas um facilitador do trabalho do catalogador. Mas fica bastante nítido que é possível usar as ferramentas disponíveis na Internet a favor de nosso trabalho.

O código está disponível no github. Mas faz parte de um sistema de coleta de produção científica que inclui outras fontes como o Lattes, WoS e Scopus.

Perguntas, respostas e suspiros noturnos

Num dia comum na Grande Biblioteca, ou em qualquer outra biblioteca grande ou pequena, muitas perguntas são feitas. Os funcionários nem sempre dão as respostas que gostariam, por educação, prudência ou tédio mas, às vezes, dão.

Dona Teresa está guardando toneladas de livros, usando guarda-pó, máscara para não morrer de tanto espirrar e um enorme crachá onde se lê seu nome e função em letras garrafais. Alguém se aproxima e pergunta:
– Por acaso a senhora trabalha aqui?
– O que você acha? – devolve Dona Teresa, espichando-se toda,  com uma das mãos no quadril e a outra apontando para os sinais de que se trata de uma funcionária trabalhando.

Normalmente a reação é um pedido de desculpas encabulado ou uma cara feia. Ambos divertem igualmente a guardadora de livros, que solta uma gargalhada e oferece seus préstimos com simpatia. A única reação diferente registrada em vários anos de observação foi de uma garota gorduchinha que bateu palmas como se tivesse feito uma grande descoberta e gritou:
– Eu acho que sim! Me ajuda! Me ajuda! Eu não consigo achar o livro!

Lá no balcão de empréstimos um cavalheiro de terno mal cortado folheia distraidamente o livro que alguém devolveu.
– Isso parece coisa de “viado”…

E o bibliotecário, com grande naturalidade, pergunta:
– Eu sou veado, por que você acha isso?

Ninguém entende muito bem a resposta gaguejada, que soa mais ou menos como “nada não, obrigado”.

Mais tarde, dois moleques resolvem matar a curiosidade e perguntam para a moça da portaria:
– Tia, por que você fica desenhando esses quadradinhos aí?
– Tá vendo este pauzinho aqui? – indicando com a ponta da unha pintada de vermelho um dos risquinhos de sua estatística de entrada de usuários – É você. Este outro aqui é o seu amigo. Entendeu?

Depois de mais de vinte minutos tentando decifrar as confusas  anotações de uma jovem universitária, a bibliotecária de referência finalmente descobre que um dos  supostos livros era um artigo  de revista e o outro um filme, nenhum deles disponíveis no acervo.
– Mas o professor disse que eram livros e que eu poderia encontrá-los aqui!

A bibliotecária explica, com a ar de quem revela um grande segredo:
– O professor não sabe nada…

Diante da expressão completamente chocada da moça, Lúcia, que já havia levado umas broncas por causa de sua língua rápida e ferina, volta atrás e conserta um pouco a maldade:
– Quero dizer que seu professor sabe muuuitas coisas, mas disso ele não entende nada – e ajuda a moça a encontrar filme e artigo em fontes alternativas de caráter pirático.

A mesma Lúcia costuma responder, com um bonito sorriso, quando alguém reivindica um privilégio por conta de uma condição que considera única e muito relevante (“eu faço doutorado na UCI -Universidade Chique e Importante”, por exemplo):
– Você e mais uns trezentos – adaptando o número à situação. A vontade mesmo era dizer “ você, a torcida do Corinthians e metade da do Palmeiras”, mas seria um exagero. Lúcia é desbocada, mas não abusa.

A estagiária estudante de Letras detesta quando explica que não pode digitalizar o livro e enviar para o usuário, porque existe uma lei que protege direitos autorais e tal, e a pessoa questiona, como se estivesse explicando um fato da vida no qual ela nunca havia pensado:
– Mas, e se eu pegar o livro emprestado e digitalizar? Quem vai saber?

Para usuários conhecidos, daqueles que estão sempre na biblioteca e com quem os funcionários se permitem certas familiaridades, a estagiária responde, com algumas variantes:
– Tem uns ácaros aí no livro treinados para acionar um alarme telepático que vai soar lá no Departamento Antidigitalização de Livros na Íntegra da Polícia Federal toda vez que alguém faz isso. Aí os fiscais da ABNT vão rastrear o livro até sua casa, confiscar o pdf e aplicar-lhe pesada multa.

Os mesmos ácaros, segundo Lúcia, gritam desesperados quando alguém rabisca o livro: “PARA, PARA, VOCÊ ESTÁ ME MACHUCANDO! ”.

Já os fiscais da ABNT apareceram na biblioteca num belo dia de dezembro para avisar que os festões da decoração natalina estavam fora dos padrões, de acordo com um funcionário gaiato que fez a secretária da chefia, por um breve momento, acreditar na história.

E é quando todos riem com essas outras biblio-fantasias, como a história do movimento migratório dos livros que explicaria obras sobre arte rupestre guardadas na estante de culinária, é que a Fernanda da Aquisição, a melhor contadora de causos da Grande Biblioteca, muito séria, se põe a narrar a história dos suspiros.
– Vocês estão rindo, mas fiquem sabendo que nesta biblioteca, como em quase todas as bibliotecas que têm acervo muito antigo, há diversos livros que suspiram. Durante o dia não se nota, mas quem andar entre as estantes à noite talvez consiga escutá-los. São os livros esquecidos, que ninguém abre há muitos anos e se ressentem disso – nesse momento, Fernanda faz uma pausa e baixa o tom de voz, como se contasse um segredo soturno. Alguns deles, na verdade, jamais deveriam ser abertos mesmo. Nem todos os livros esquecidos são inofensivos. Por isso, se algum dia vocês ouvirem suspiros na Biblioteca, afastem-se imediatamente das estantes.

Alguns ouvintes arregalam os olhos, outros soltam risadas nervosas, mas não há quem não lance um olhar ressabiado em direção às imponentes estantes guardiãs de segredos.

E assim, na Grande Biblioteca e em qualquer outra biblioteca, as perguntas ingênuas, as respostas às vezes tortas, as piadas, as histórias e os suspiram se repetem, dia após dia. E devem continuar, enquanto existirem bibliotecas e pessoas dentro delas.

Agradeço à querida Arlete (em memória),ao José e ao Walber por algumas dessas histórias. Nem todas são inventadas.

fotos: Victoria Pickering, Library; Michael D Beckwith, Chetham´s Library (Flickr)

Uma pequena introdução ao Elasticsearch, para bibliotecários

Por que aprender Elasticsearch, se sou bibliotecário? Minha resposta simples para essa pergunta é que para se trabalhar em uma equipe multidisciplinar, é bastante importante entender ao menos os principais conceitos e melhores práticas de outras áreas. Além é claro de ser um diferencial competitivo na sua carreira.

Temos que começar rapidamente pela novidade essencial, que são os Banco de Dados não-relacionais (NoSQL) (Ops, não pode citar wikipédia, né?). Fiz uma pesquisa básica na BRAPCI e no RPPBCI e não encontrei nenhum resultado para os termos: elasticsearch, mongodb ou nosql, mas em compensação, uns 30 por XML. Então, cabe uma pequena explicação do que muda:

Primeiro, é necessário deixar claro que em tecnologia, não é porque você começa a adotar uma tecnologia que necessáriamente irá abandonar a anterior. Então, NoSQL não é necessariamente uma evolução do modelo SQL. Mas o que muda na prática?

Nos banco de dados relacionais, a informação é armazenada em tabelas, imagine a tabela LIVROS:

Titulo Autor Editora
Introdução à Biblioteconomia Edson Nery da Fonseca Briquet de Lemos Livros
Missão do bibliotecário José Ortega y Gasset Briquet de Lemos Livros

E as consultas, são por SQL:

SELECT * FROM LIVROS
Para retornar todos os títulos ou:
SELECT * FROM LIVROS
WHERE EDITORA = "Briquet de Lemos Livros"

Para recuperar todos os títulos de uma determinada editora.

Fiz um pequeno estudo de como os SIGBs livres armazenam os dados em banco de dados relacionais, para quem tiver interesse.

No modelo NoSQL, é um banco de dados que armazena o documento, mas um documento JSON. O JSON é um formato que tem algumas vantagens em relação ao XML. Vamos ver um exemplo dos dois:

< ?xml version="1.0" encoding="UTF-8"? >
< titulo >Introdução à Biblioteconomia< /titulo >
< autor >Edson Nery da Fonseca< /autor >
< editora >Briquet de Lemos Livros< /editora >
< /xml >

O XML, assim como o MARC, é um bom formato de intercâmbio de dados. Já o JSON ficaria assim:

{
"Titulo":"Introdução à Biblioteconomia",
"Autor": "Edson Nery da Fonseca"
"Editora": "Briquet de Lemos Livros"
}

A vantagem, neste caso, além de ser um formato mais enxuto, usar arrays, e pode ser usado diretamente nos bancos NoSQL, além é claro de ser o formato padrão do Javascript e por isso é usado amplamente na Internet por todas as APIs. Já é possível descrever documentos inteiros em JSON ou XML. Só como curiosidade, em 2007, eu juntei o que eu li sobre gerenciar documentos integrais em um pequeno slide, e vejo que hoje o modelo, precisa de adaptação, mas não perdeu totalmente o sentido:

Mas voltando ao Elasticsearch (dá para usar também o MongoBD, tendo cada um uma vantagem diferente sobre o outro). É um software livre, que faz parte de um conjunto chamado Elastic Stack.

A diferença que irei destacar em relação ao modelo relacional lá de cima é que a informação é armazenada no próprio documento e não tem mais uma estrutura fixa de dados. No modelo lá de cima, se quiser colocar a informação sobre a função do autor, tem que criar uma nova coluna na tabela. Para dois autores com duas funções diferentes, a coisa começa a complicar. Ou se criam 4 colunas, duas para o nome, duas para a função, ou se cria uma nova tabela, e faz o relacionamento entre elas. Mas é preciso uma modelagem prévia do modelo antes de entrar qualquer dado. No NoSQL, é bem mais simples, é só alterar o JSON. Como por exemplo no modelo abaixo:

{
"Titulo":"Introdução à Biblioteconomia",
"Autoria": {"nome":"Edson Nery da Fonseca",
"função":"Autor"
},
"Editora": "Briquet de Lemos Livros"
}

A desvantagem é que isso possibilita ter mais erros em relação a consistência dos dados.
Outro grande problema, é a esquematização da descrição. Há estudos em usar os nomes MARC e sua lógica de estrutura para os nomes dos campos. Eu particularmente não gosto desta abordagem. Eu optei por usar o formato schema.org. É um esquema bem completo para a descrição de qualquer tipo de objeto. Mas podemos utilizar qualquer esquema.

O Elasticsearch tem duas principais funcionalidades, pensando em recuperação da informação: A recuperação e a criação de facetas (ou agregações).

Ele não aceita consultas em SQL e tem um vocabulário próprio para consultas: Query DSL. E também um para construção de facetas: Aggregations.

Em relação a consulta, se destacam com alguns conceitos diferente em relação aos bancos de dados relacionais: atribuição de notas e criação de indices de palavras. Um campo título, por exemplo, ao ser indexado, é indexado por suas palavras separadas. Ele também cria um campo para o valor como um todo. Mas tem que buscar em um campo diferenciado com a palavra .keyword no final. Por exemplo, para uma busca no titulo acima, ele busca no índice de palavras “introdução” e “Biblioteconomia” e dá uma nota por maior proximidade de correspondência. Um chute: a busca acima daria uma nota de 80.333. Mas algum titulo como “Estudando a Biblioteconomia no Brasil”, daria uma nota de 30.455 para a mesma busca. Com isso, é possível definir a relevância, e inclusive, não exibir resultados com notas muito baixas.

Para as facetas, é necessário usar o valor completo do campo, e não ele quebrado em palavras. Por isso é preciso usar o campo .keyword. Por exemplo, o campo editora.keyword permite saber quantas vezes cada ocorrência aparece no campo editora. É possível em bancos relacionais usar o “GROUP BY”, mas ele tem menos funcionalidades.

Teria muitos mais detalhes, mas como a idéia era escrever apenas uma pequena introdução, vou só mostrar como seria um exemplo de inclusão de documento, consulta e agregação (O Banco só aceita comandos REST):

INCLUSÃO:

PUT catalogo/livros/1
{
"Titulo":"Introdução à Biblioteconomia",
"Autoria": {"nome":"Edson Nery da Fonseca",
"função":"Autor"
},
"Editora": "Briquet de Lemos Livros"
}

CONSULTA SIMPLES (Retorna os registros com autor “Edson Nery da Fonseca” ):

GET catalogo/livros/_search
{
"query" : {
"term" : { "Autoria.nome" : "Edson Nery da Fonseca" }
}
}

FACETA SIMPLES (Retorna todos os valores de editoras e suas quantidades):

GET catalogo/livros/_search
{
"size": 0,
"aggregations": {
"my_agg": {
"terms": {
"field": "Editora"
}
}
}
}

Só para finalizar, o Elasticsearch aguenta milhões de registros e tem uma ferramenta poderosa de Business Inteligence que é o Kibana. Posso escrever um post depois só sobre ele.

Querem testar os resultados? O Repertório da Produção Periódica Brasileira de Ciência da Informação – RPPBCI é um exemplo de busca usando o Elasticsearch. Ah, a resposta no RPPBCI é um pouco mais lenta, por que na hora de gerar o resultado, nós consultamos o facebook e armazenamos a resposta no banco de dados. Mas vale para testar as funcionalidades.

Indexação do catálogo no Google

Lá em 2014, eu e o Giuliano Ferreira conversamos sobre como poderíamos indexar nossos catálogos no Google. Depois ele apresentou um trabalho bacana no SNBU: “AUMENTANDO O ALCANCE E A VISIBILIDADE DE CATÁLOGOS ONLINE E REPOSITÓRIOS INSTITUCIONAIS COM A AJUDA DO GOOGLE.”. Então essa é uma idéia que estava martelando na minha cabeça desde aquela época.

Neste post vou mostrar o caminho que fizemos para tornar essa idéia algo real.

Atualmente temos um catálogo que pode ser indexado pelo google, mas não está sendo por uma questão importante, que é a limitação dele para receber muitos usuários. Começamos então a estudar uma maneira de contornar isso. E uma das soluções encontradas foi criar um OPAC independente, mas sincronizado, que possa receber toda a carga de uso sem sobrecarregar o sistema principal.

Desenvolvemos um software livre utilizando o ElasticSearch e PHP, muito inspirado no Vufind. O ElasticSearch, na minha opinião, é a melhor ferramenta de criação de índices e recuperação da informação no momento e PHP foi escolhida por ser uma linguagem simples, mas que é poderosa o suficiente.

A idéia principal por tras é pegar os registros MARC e transformá-los em JSON (formato padrão utilizado no Elasticsearch). Para os nomes dos campos, utilizamos o padrão schema.org. A vantagem em utilizar o Schema.org é que é um formato de metadados estruturados que o google utiliza, melhorando a indexação. O sistema tem em seu cabeçalho, os metadados estruturados no padrão JSON-LD utilizando o Schema.org.

É possível adaptar a aplicação para qualquer formato de entrada de metadados e sistema fonte de informação. E adaptar a interface para essa situação.

Atualmente temos 2 sistemas em produção utilizando esta lógica, ambos com os metadados catalogados em MARC, mas sendo sincronizados e oferendo uma forma alternativa de consulta:

Partituras da Universidade de São Paulo
Biblioteca Digital de Produção Intelectual da Universidade de São Paulo

Ainda não fizemos com o nosso catálogo principal.

Mas posso falar que são muitas as vantagens em indexar o catálogo no Google, mas a principal é ampliar a visibilidade de um acervo que até então o usuário teria que fazer uma busca individual em cada catálogo para saber que alguma instituição tem a obra que ele precisa. Essa lógica altera um pouco o fluxo de sistemas de busca federada.

Uma limitação ainda é que não controlamos totalmente o que é indexado, então não é possível garantir que o google irá indexar todos os seus conteúdos. Há estudos que mostram que o google tende a indexar somente uma porcentagem do conteúdo dos sites e nunca tudo. Então esta pode ser uma limitação importante a ser considerada.