A perda de memória do Google

Sempre foi uma constante a comparação do google com o trabalho bibliotecário. Nem acho que a antipatia da nossa parte seja justificada, porque simplesmente nunca deu pra competir. Mas me agrada a oportunidade de rever a finalidade do nosso trabalho quando somos confrontados.

Um texto recente que circulou sugere que o google parou de indexar as partes mais antigas da web: você pesquisa uma página antiga, sabendo que ela existiu, tendo um dia a visitado, utilizando os termos de busca corretos, mas mesmo assim o resultado é zero. Do ponto de vista do business deles, fica impraticável indexar tudo uma vez que não vão conseguir associar banners de propaganda à conteúdos desatualizados e obscuros. ok. Mas o insight do autor do texto é sobre seu modelo mental da web, que pra ele seria uma espécie de arquivo permanente do patrimônio intelectual da humanidade. Para que seja útil, a web precisa ser indexada, assim como conteúdo em uma biblioteca. É um insight sensível e importante. O Google, aparentemente, não compartilha essa visão. Malvado.

Isso casa também com a proposta de arquivamento de tweets pela Library of Congress e recente decisão deles de abandonar a coleta total. A proposta inicial seguia o mesmo motivo por que recolhe outros materiais: para adquirir e preservar um registro de conhecimento e criatividade para o congresso e o povo americano. Mas anos se passaram e o cenário das redes sociais mudou completamente, em suma, esse registro virou uma lixarada só, e desistiram.

Ele faz mea culpa, e talvez muito de nós, estamos usando freneticamente e confiando plenamente na infraestrutura global do Google como índice de pesquisa particular para nossas publicações pessoais. Se essa infraestrutura se perde, a gente desaparece junto. É similar ao antigo dilema de organizar e arquivar fotos na web e constantemente ter de migrar de plataforma, do fotolog para albuns do orkut, do flickr para o google photos, do facebook para o instagram.

Para quem produz conteúdo online isso também é crítico, porque além da dificuldade de acompanhar o lastro das nossas publicações, a ausência de indexação permanente causa um impacto direto nas estratégias de SEO. Não é segredo pra vcs que uma das minhas recomendações a todos os autores deste blog é pensar sempre na composição de títulos e conteúdo que sejam atemporais. Ou seja, que façam sentido pelo maior número de anos possível. Tanto é que a maioria dos posts mais visitados aqui ao longo do tempo pode ser lida e fazer sentido agora tal como quando foi escrita e publicada na origem. Quem trabalha em bibliotecas universitárias sabe que muitos artigos só começam a ser citados décadas após sua publicação, então junte mais essa ao dilema do arquivamento contínuo e perpétuo.

Particularmente não tenho muito neura em relação ao acervo retrospectivo, diferente de quem por exemplo continuamente pesquisa pelo próprio nome no google. Só não dá pra pecar por ingenuidade, reclamar das dores do crescimento da esfera pública online: quem confia em corporações privadas para preservar e arquivar memória e herança intelectual e cultural do público?

Assim, por esses e mais motivos, é obvio que precisamos de iniciativas como o Internet Archive e de preservação do lastro e da privacidade digital, blockchain e tal. E de melhores ferramentas de arquivamento e recuperação. E das próprias bibliotecas. Mas é uma transcendência na nossa atuação, já tentei ser exaustivo no livro sobre o futuro da biblio: tudo isso remete à singela raison d’être bibliotecária que é a organização dos registros do conhecimento para fins de recuperação. Sem tentar ser fofinho, mas seguindo esse quadro a gente ainda se sustenta como profissionais relevantes por mais alguns anos, independente de inteligência artificial. É sucesso.

A ridícula ideia de guardar livros ao contrário

Algum tempo atrás apareceram no instagram fotos de estantes cheias de livros dispostos ao contrário (com a lombada pra dentro), seguindo uma proposta de decoração que tem a intenção de reduzir a paleta de cores e “acalmar” um ambiente.

Em primeiro momento podemos todos concordar que a ideia pode ser interessante esteticamente mas impraticável em uma biblioteca de verdade, afinal como encontrar um livro específico ali?

Todo as pessoas são livres pra organizar livros em suas coleções pessoais como bem quiserem. Então a ridícula ideia de guardar livros ao contrário pode ser defendida se ela funciona como uma tática pra saber quais livros faltam ser lidos (como o “want to read” no goodreads, livros com a lombada pra dentro são os que ainda serão lidos, livros com a lombada pra fora são os que já foram lidos) ou simplesmente uma tática para escolher uma próxima leitura aleatoriamente (como as campanhas de “encontro às cegas” que algumas bibliotecas fazem). Existem os extremos onde a apresentação de uma coleção pessoal deseja representar uma intelectualidade que na verdade não existe ou leitores que são tão afetuosos que reconhecem seus livros por tamanho e condição física. Então, fiquem à vontade.

O curioso é que guardar livros com a lombada/espinha voltada pra dentro da prateleira não é um fenômeno recente na história do livro porque nos séculos 17 e 18 os títulos de livros e os autores eram escritos em tinta na borda das páginas, e as lombadas ficavam viradas para dentro para proteger a encadernação em couro. Outra mudança que reforçou esse tipo de disposição foi que os ricos decidiram que ter as bordas das folhas adornadas em ouro daria um certo charme às suas bibliotecas (aqui uma referência sobre a biblioteca real em El Escorial).

Exprimam todo seu desprezo bibliotecário apreciando estas belas fotos (#backwardbooks):

22 livros pra ter na biblioteca em 2018

Nós bibliotecários ainda carecemos de uma boa publicação especializada sobre lançamentos editoriais e resenhas de livros, nos moldes dos reviews da Library Journal. Recentemente esse esforço tem sido preenchido pela Quatro Cinco Um e um sem número de booktubers, mas creio que em termos gerais, em especial por conta da burocracia das licitações e relacionamento com os editores, poucos bibliotecários fazem valer esse tipo de fonte como base para aquisições.

De qualquer modo, uma das maneiras mais simples e eficazes de construir uma lista de aquisições é percorrendo as indicações de melhores livros do ano oferecidas por cadernos literários, críticos e especialistas. As sugestões são muitas mas a grana é sempre curta, então pra facilitar, juntei em uma lista única as indicações provenientes de 17 listas de melhores livros de 2017 (metodologia aqui, tal qual ano passado). Possivelmente bastante coisa que foi lançada no último ano deve servir tanto para compor o acervo de literatura em diversos tipos de bibliotecas, bem como nossas bibliotecas pessoais. As sinopses foram retiradas dos sites das editoras e livreiros.

Boas leituras e bons empréstimos em 2018!

1. Manual da faxineira, Lucia Berlin (11 votos)

Lucia Berlin teve uma vida repleta de eventos e reviravoltas. Aos 32 anos, já havia vivido em diversas cidades e países, passado por três casamentos e trabalhado como professora, telefonista, faxineira e enfermeira para sustentar os quatro filhos. Lutou contra o alcoolismo por anos antes de superar o vício e tornou-se uma aclamada professora universitária em seus últimos anos de vida. Desse vasto repertório pessoal, Berlin tira inspiração para escrever os contos que a consagraram como uma mestre do gênero. Com a bravura de Raymond Carver, o humor de Grace Paley e uma mistura de inteligência e melancolia, Berlin retrata milagres da vida cotidiana, desvendando momentos de graça em lavanderias, clínicas de desintoxicação e residências de classe alta da Bay Area.

2. Anos de formação: os diários de Emilio Renzi, Ricardo Piglia (11 votos)

O primeiro de uma trilogia que celebra a leitura como uma atividade vital e existencial, estabelecendo de uma vez por todas o lugar de Piglia na literatura mundial. Estes diários (que podem ser lidos como um monumental romance de formação) são escritos por Emilio Renzi, alter ego que Ricardo Piglia elegeu em diversos livros para dar voz às suas obsessões. É a história de um artista quando jovem tentando encontrar o seu lugar no mundo, entre erros e acertos. Um livro central para o nosso tempo, escrito numa prosa altamente literária que não abdica da discussão de ideias, do prazer do texto e da imaginação mais poderosa.

3. Anjo noturno, Sérgio Sant’Anna (8 votos)

Depois dos aclamados O homem-mulher e O conto zero e outras histórias, Sérgio Sant’Anna segue surpreendendo seus leitores. Nas nove narrativas reunidas em Anjo noturno, um dos principais escritores brasileiros da atualidade explora num gênero híbrido — que abrange contos, memórias e novelas — temas a um só tempo díspares e intrincados, como morte e vida, infância e velhice, paixão carnal e amor fraternal. O conto “Talk show” narra a participação de um escritor em um programa de auditório, numa sucessão de situações embaraçosas e eletrizantes que se desenrolam tanto no palco quanto nos bastidores. Já em “Augusta”, o autor relata o encontro entre um professor universitário e uma produtora musical numa festa em Copacabana. A mesma atmosfera lasciva marca outras narrativas, como “Um conto límpido e obscuro”, em que o narrador recebe a visita inesperada de uma amiga artista plástica com quem não tem relações amorosas há cerca de dois anos. Nesse universo de tensão entre desejo e profunda solidão, a prosa de Sérgio Sant’Anna percorre com engenhosidade e maestria as memórias e os anseios do escritor.

4. O vendido, Paul Beatty (6 votos)

Nascido em Dickens, no subúrbio de Los Angeles, Eu, o narrador de O VENDIDO, passou a maior parte da juventude como cobaia para estudos raciais realizados por seu pai, um polêmico sociólogo. Quando o pai é morto em um tiroteio com a polícia e Dickens desaparece do mapa da Califórnia por motivos políticos e econômicos, Eu se junta a Hominy Jenkins, o mais famoso morador local e o último ator vivo da série “Os Batutinhas”, para tentar salvar a cidade através de um controverso experimento social: reinstaurar a segregação racial em Dickens, marginalizando brancos e negros em um plano que o levará a ser julgado pela Suprema Corte dos Estado Unidos.

5. Noite dentro da noite, Joca Reiner Terron (6 votos)

Durante uma brincadeira no colégio, um garoto bate a cabeça e entra em coma. Ele desperta sem saber ao certo quem é, e, conforme suas memórias vão se dissolvendo, tem início o que vem a ser conhecido na família como O Ano do Grande Branco. Nos meses seguintes, o garoto vive a sensação intensa de que aquelas pessoas que cuidam dele e que o alimentam não são seus pais. Todavia, os barbitúricos receitados pelo médico confundem seu raciocínio e o garoto vai aos poucos perdendo as certezas que alguém de onze anos pode ter. É a partir daí que Joca Reiners Terron vai contar essa labiríntica história. Com uma galeria que inclui espiões, guerrilheiros, caçadores e pelo menos um monstro da natureza, Noite dentro da noite percorre a história recente do Brasil, inserindo nossa realidade no mesmo caleidoscópio que faz mover este romance incomum e extraordinário.

6. Lima Barreto: triste visionário, Lilia Moritz Schwarcz (6 votos)

Durante mais de dez anos, Lilia Moritz Schwarcz mergulhou na obra de Afonso Henriques de Lima Barreto, com seu afiado olhar de antropóloga e historiadora, para realizar um perfil biográfico que abrangesse o corpo, a alma e os livros do escritor de Todos os Santos. Esta, que é a mais completa biografia de Lima Barreto desde o trabalho pioneiro de Francisco de Assis Barbosa, lançado em 1952, resulta da apaixonada intimidade de Schwarcz com o criador de Policarpo Quaresma – e de um olhar aguçado que busca compreender a trajetória do biografado a partir da questão racial, ainda pouco discutida nos trabalhos sobre sua vida. Abarcando a íntegra dos livros e publicações na imprensa, além dos diários e de outros papéis pessoais de Lima Barreto, muitos deles inéditos, a autora equilibra o rigor interpretativo demonstrado em Brasil: Uma biografia e As barbas do imperador com uma rara sensibilidade para as sutilezas que temperam as relações entre contexto biográfico e criação literária. Escritor militante, como ele mesmo se definia, Lima Barreto professou ideias políticas e sociais à frente de seu tempo, com críticas contundentes ao racismo (que sentiu na própria pele) e outras mazelas crônicas da sociedade brasileira. Generosamente ilustrado com fotografias, manuscritos e outros documentos originais, Lima Barreto: Triste visionário presta um tributo essencial a um dos maiores prosadores da língua portuguesa de todos os tempos, ainda moderno quase um século depois de seu triste fim na pobreza, na doença e no esquecimento.

7. A Noite da espera, Milton Hatoum (6 votos)

Nove anos após a publicação de Órfãos do Eldorado, Milton Hatoum retorna à forma da narrativa longa em uma série de três volumes na qual o drama familiar se entrelaça à história da ditadura militar para dar à luz um poderoso romance de formação. Nos anos 1960, Martim, um jovem paulista, muda-se para Brasília com o pai após a separação traumática deste e sua mãe. Na cidade recém-inaugurada, trava amizade com um variado grupo de adolescentes do qual fazem parte filhos de altos e médios funcionários da burocracia estatal, bem como moradores das cidades-satélites, espaço relegado aos verdadeiros pioneiros da capital federal, migrantes desfavorecidos. Às descobertas culturais e amorosas de Martim contrapõe-se a dor da separação da mãe, de quem passa longos períodos sem notícias. Na figura materna ausente concentra-se a face sombria de sua juventude, perpassada pela violência dos anos de chumbo. Neste que é sem dúvida um dos melhores retratos literários de Brasília, Hatoum transita com a habilidade que lhe é própria entre as dimensões pessoal e social do drama e faz de uma ruptura familiar o reverso de um país cindido por um golpe.

8. A cena interior, Marcel Cohen (5 votos)

Em 14 de agosto de 1943, Marcel Cohen, com cinco anos e meio, foi passear com sua babá em uma praça parisiense. Do outro lado da rua, ao retornar para casa, viu sua família, de judeus turcos emigrados, ser presa pelos nazistas. Todos eles, incluindo sua irmã recém-nascida, sua mãe, seu pai, seus tios e avós, acabariam mortos nos campos de concentração alemães. Setenta anos depois, já um escritor consagrado, Cohen publicou este livro impressionante, “feito de recordações e, em maior medida, de silêncio, de lacunas e de esquecimento”, no qual procura recuperar a história de sua família por meio dos parcos objetos e fragmentos de memória que puderam escapar ao Holocausto.

9. Laços, Domenico Starnone (4 votos)

Vanda e Aldo estão casados há mais de 50 anos, e seu casamento esteve sujeito a tensões e desgastes da rotina. Ao voltarem de uma semana de férias, eles encontram o apartamento revirado. Reorganizando seus papeis, Aldo se vê forçado a encarar lembranças dos anos em que abandonara Vanda e os filhos para viver com outra mulher. As fissuras causadas por esse trauma permanecem latentes. Com atmosfera napolitana, LAÇOS é uma narrativa honesta sobre relacionamentos, família e amor. Não há respostas fáceis – a esposa traída, a filha abandonada, o marido infiel, herois ou vilões – mas sim pessoas comuns, com seus complexos desejos e anseios.

10. Meu coração está no bolso, Frank O’Hara (4 votos)

Meu coração está no bolso reúne 25 poemas de Frank O’Hara, poeta que fez parte, nos anos 1950 e 60, da New York School of Poetry. Os versos de O’hara conduzem o leitor por um universo urbano e veloz, que dialoga com as vanguardas literárias e com outras artes, como cinema e artes plásticas. Aliás, por estar bem próximo de pintores como Jackson Pollock e Willem de Kooning, é como se o poeta tomasse emprestado deles a destreza da ‘action painting’ – técnica usada no expressionismo abstrato – para compor uma obra cheia de vida e alvoroço.

11. O martelo, Aledaide Ivánova (4 votos)

Adelaide Ivánova nasceu em 1982 na cidade de Recife. Jornalista, poeta, tradutora e fotógrafa, seu trabalho percorre o mundo em publicações impressas e digitais como i-D (UK), Colors (Itália), Te Hufngton Post (EUA), Modo de Usar & Co. (Brasil), Suplemento Pernambuco (Brasil) entre outras. “O Martelo” é seu terceiro livro de poemas. Sua edição brasileira lançada pelo Edições Garupa em 2017 traz um aparente formato padrão e surpreende o leitor com uma fina camada de tinta vermelha que cobre a capa sujando suavemente as mãos de quem o encosta. Dividido em duas partes, o livro se destaca da atual poesia brasileira ao assumir uma voz verdadeiramente feroz e não temer tratar assuntos cortantes.

12. O método Albertine, Anne Carson (4 votos)

Da primeira à última página, O método Albertine trava uma queda de braço com Em busca do tempo perdido, de Proust. O ponto óbvio entre ambos é Albertine, a personagem encarcerada pelo narrador da obra de Proust. É dividida em duas partes: na primeira, são elencadas 59 reflexões rápidas sobre a figura de Albertine na trama; na segunda parte, há apêndices com reflexões mais extensas e profundas que as da primeira parte. O livro, como um todo, emula um trabalho ensaístico.

13. O palácio da memória, Nate DiMeo

Seleção de algumas das melhores narrativas recolhidas e apresentadas por Nate DiMeo em The Memory Palace, um dos podcasts de maior sucesso dos Estados Unidos, O PALÁCIO DA MEMÓRIA reúne, pela primeira vez em livro, um conjunto absolutamente irresistível e viciante de histórias sobre pessoas comuns que enfrentaram – com coragem, paixão e inteligência – as vicissitudes, grandes e pequenas, oferecidas pela vida. Muitas não fazem parte daquela história oficial, com “h” maiúsculo: mas suas trajetórias iluminam aspectos que nos ajudam a entender a vida de todos nós graças ao encanto imorredouro da narrativa.

14. Uma História do Samba – Volume 1, Lira Neto

Depois da aclamada trilogia biográfica de Getúlio Vargas, Lira Neto se lançou ao desafio de contar a história do samba urbano. Em sua nova empreitada (de fôlego!), o escritor cearense pretende retraçar, com sua verve narrativa singular, o percurso completo desse ritmo sincopado que é um dos sinônimos da brasilidade. Em virtude da riqueza e da amplitude do material compilado, recheado de documentos inéditos e registros fotográficos, o projeto será desdobrado em três volumes – neste primeiro, Lira leva o leitor das origens do samba até o desfile inicial das escolas de samba no Rio. O samba carioca nasceu no início do século XX a partir da gradativa adaptação do samba rural do Recôncavo baiano ao ambiente urbano da então capital federal. Descendente das batidas afro-brasileiras, mas igualmente devedor da polca dançante, o gênero encontrou terreno fértil nos festejos do Carnaval de rua. Nas décadas de 1920 e 1930, com o aprimoramento do mercado fonográfico e da radiodifusão, consolidou seu duradouro sucesso popular, simbolizado pelo surgimento das primeiras estrelas do gênero e pela fundação das escolas de samba.

15. História da menina perdida, de Elena Ferrante

No quarto e último volume da série napolitana, a aclamada autora Elena Ferrante finaliza a história de vida de Lenu e Lina e de todos os personagens do bairro de Nápoles. Os personagens caminham agora da maturidade à velhice. A amizade entre Lenu e Lina, que foi a força que as fez evoluir apesar da violência do bairro, é também a responsável por toda a dor que rodeou as personagens durante toda a saga, e, continua aqui, a atingir o seu ápice. História da menina perdida é o final que o leitor esperava, com a dureza e a força que aprendemos a identificar nas personagens de Ferrante, sem rodeios.

16. Heroínas negras brasileiras em 15 cordéis, Jarid Arraes

Desde 2012, a autora Jarid Arraes tem se dedicado a desvendar a história das mulheres negras que fizeram a História do Brasil. E não bastava conhecer essas histórias, era preciso torná-las acessíveis e fazer com que suas vozes fossem ouvidas. Para isso, Jarid usou a linguagem poética tipicamente brasileira da literatura de cordel. E vendeu milhares de seus cordéis pelo Brasil, alertando para a importância da multiplicidade de vozes e oferecendo exemplos de diversidade para as mulheres atuais. Neste livro, reunimos 15 dessas histórias, que ganharam uma nova versão da autora e a beleza das ilustrações de Gabriela Pires.

17. Da poesia, Hilda Hilst

A intensa e prolífica atividade literária de Hilda Hilst se desdobrou em livros de ficção e em peças de teatro, mas foi na poesia que ela deu início à sua carreira. Ao longo de 45 anos, entre 1950 e 1995, a poeta publicou em pequenas tiragens graças ao entusiasmo de editoras independentes, com destaque para Massao Ohno, seu amigo e principal divulgador. No início dos anos 2000, os títulos de Hilda começaram a ser editados pela Globo. A partir desse momento, a sua escrita – até então considerada marginal e hermética – passou a ter ampla divulgação e a receber o interesse de uma legião de leitores e estudiosos. Agora, a Companhia das Letras reúne, pela primeira vez, toda a lavra poética da autora de Bufólicas em um só livro, que inclui, além de mais de 20 títulos, uma seção de inéditos e fortuna crítica. O material contém posfácio de Victor Heringer, carta de Caio Fernando Abreu para Hilda, dois trechos de Lygia Fagundes Telles sobre a amiga e uma entrevista cedida a Vilma Arêas e a Berta Waldman, publicada no Jornal do Brasil em 1989. A poesia de Hilda – que ganha forma em cantigas, baladas, sonetos e poemas de verso livre – explora a morte, a solidão, o amor erótico, a loucura e o misticismo. Ao fundir o sagrado e o profano, a poeta se firmou como uma das vozes mais transgressoras da literatura brasileira do século XX.

18. Como se fosse a casa: uma correspondência, Ana Martins Marques e Eduardo Jorge

Durante um mês, a poeta Ana Martins Marques alugou o apartamento do amigo e também poeta Eduardo Jorge, que viajara para a França. O imóvel fica na região centro-sul de Belo Horizonte, no edifício JK, projetado por Oscar Niemeyer em 1952. Enquanto viveu ali, a inquilina trocou e-mails com o locador. As mensagens, de início, abordavam questões meramente práticas. Mas, depois, se converteram em uma troca de poemas sobre o permanecer e o partir, o morar e o exilar-se, o familiar e o estranho.

19. Breve História de Sete Assassinatos, Marlon James

Em 3 de dezembro de 1976, às vésperas das eleições na Jamaica e dois dias antes de Bob Marley realizar o show Smile Jamaica para aliviar as tensões políticas em Kingston, sete homens não identificados invadiram a casa do cantor com metralhadoras em punho. O ataque feriu Marley, a esposa e o empresário, entre várias outras pessoas. Poucas informações oficiais foram divulgadas sobre os atiradores. No entanto, muitos boatos circularam a respeito do destino deles. Breve história de sete assassinatos é uma obra de ficção que explora esse período instável na história da Jamaica.

20. Aqui, Richard McGuire

Aqui conta a história de um canto de uma casa, e o que aconteceu ali durante centenas de milhares de anos. Aguardada há quase três décadas, Trata-se da versão final de uma ideia que McGuire publicou numa revista independente nos anos 1980. Dramático, cômico e amplamente inovador, é o testemunho não apenas de um grande artista no auge de sua forma, mas também das possibilidades infinitas da linguagem dos quadrinhos. Ao extrapolar regras e inverter convenções, McGuire criou uma obra única, que não poderia ser contada de outra forma, um trabalho pioneiro que vai marcar para sempre o cenário das HQs.

21. Angola Janga: uma história de Palmares, Marcelo D´Salete

Durante onze anos, Marcelo D’Salete, autor de Encruzilhada e do sucesso internacional Cumbe, pesquisou e preparou-se para contar a história dessa rebelião que tornou-se nação, referência maior da luta contra a opressão e o racismo no Brasil. O resultado é um épico no qual o destino do país é decidido em batalhas sangrentas, mas que demonstra a delicada flexibilidade da resistência às derrotas. Um grandioso romance histórico em quadrinhos que fala de Zumbi, e de vários outros personagens complexos como Ganga Zumba, Domingos Jorge Velho, Ganga Zona e diversos homens e mulheres que compõe o retrato de um momento definidor do Brasil.

22. Antiboi, Ricardo Aleixo

Conhecido por sua atuação como “performador” e pesquisador das poéticas intermídia, Ricardo aposta na poesia expandida através da performance, com gestos, cantos e entonações. Antiboi reúne 32 poemas escritos entre 2013 e 2017, muitos publicados originalmente em redes sociais. Os textos traduzem o sentido de urgência que caracteriza o momento atual da vida brasileira.

Catalogação semi-automatizada de artigos de periódicos em PDF para MARC

Nosso sonho é viver em um mundo em que as informações são estruturadas na fonte e os metadados são reaproveitados de maneira precisa, pois foram descritos utilizando semântica computacional. Mas ainda estamos longe desta realidade. Porém, já estamos em um momento em que as informações nascem digitais, e por isso, já é possível tirar proveito desta característica. Como nesta nova realidade, reaproveitar conhecimento é a lei, conseguimos utilizar um software bastante completo chamado GROBID (or Grobid) que significa “GeneRation Of BIbliographic Data”. Sua descrição é a seguinte:

“GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured TEI-encoded documents with a particular focus on technical and scientific publications”

Em uma sintese simples, é uma biblioteca que utiliza aprendizado por máquina para extrair, fazer o parsing e re-estruturar documentos científicos em documentos estruturados em um formato TEI. É importante por que estrutura semanticamente para máquinas informações que antes estavam estruturadas somente para humanos. É uma ferramenta bastante utilizada, inclusive por serviços enormes como o ResearchGate.

O que fizemos foi utilizar os web services dela para ao subir um PDF, devolver o resultado em um formato MARC (Aleph Sequencial, compatível com o Software Aleph). É interessante pois é o resultado de toda uma cultura de software livre e remix (pois sem acesso a esses serviços, jamais conseguiriamos fazer algo assim).

O caminho é bastante simples, o nosso programa em PHP sobe o PDF e envia para o web service do Grobid, que estrutura o documento em Formato TEI. O programa então recupera as informações do TEI e estrutura em MARC (Aleph Sequencial), formato usado para poder importar no Aleph.

Por exemplo:

Baixei o PDF do artigo: Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016. E enviei para o Grobid. Se quiserem, podem testar o demo do Grobid (TEI > processFulltext Document). Um pedaço da resposta é:


< sourcedesc >
                < biblstruct >
                    < analytic >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Ronaldo< /forename >
                                < forename type="middle" >Ferreira< /forename >
                                < surname >Araujo< /surname >
                            < /persname >
                        < /author >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Sarah< /forename >
                                < forename type="middle" >Rúbia De Oliveira< /forename >
                                < surname >Santos< /surname >
                            < /persname >
                        
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < orename type="first" >Janyelle< /forename >
                                < forename type="middle" >Mayara< /forename >
                                < surname >Bento< /surname >
                            < /persname >
                        < /author >
                        < title level="a" type="main" >Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016< /title >
                    
                    < monogr >
                        < title level="j" type="main" >AtoZ: novas práticas em informação e conhecimento< /title >
                        < title level="j" type="abbrev" >AtoZ< /title >
                        < idno type="eISSN" >2237-826X< /idno >
                        < imprint >
                            < publisher >Universidade Federal do Parana< /publisher>
                            < biblscope unit="volume" >6< /biblscope>
                            < biblscope unit="issue" >1< /biblscope>
                            < biblscope unit="page" >17< /biblscope>
                        < /imprint >
                    < /monogr >
                    < idno type="DOI" >10.5380/atoz.v6i1.54543< /idno >
                    < note type="submission" >Recebido/Submitted: 15 Ago. 2017; Aceito/Approved: 22 Set. 2017< /note >
                    < note >ARTIGO | PAPER Autor para correspondência/Mail to: Ronaldo Ferreira Araujo< /note > 

Como podemos observar, o Grobid foi bem preciso em identificar informações sobre o artigo. Então, desenvolvemos um programa que recebe esta resposta e transforma em um formato MARC e a resposta fica desta maneira:

000000001 008 L ^^^^^^s^^^^^^^^^^^^^^^^^^^^^^000^0^^^^^d
000000001 0247 L $$a10.5380/atoz.v6i1.54543$$2DOI
000000001 040 L $$aUSP/SIBI
000000001 0410 L $$a
000000001 044 L $$a
000000001 1001 L $$aAraujo, Ronaldo Ferreira$$5$$7$$8$$9
000000001 24510 L $$aMediação da informação e comunicação política no Facebook$$bdesempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016
000000001 260 L $$a$$bUniversidade Federal do Parana$$c
000000001 300 L $$ap. –
000000001 500 L $$a
000000001 5101 L $$aIndexado no:
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 7001 L $$aBento, Janyelle Mayara$$5$$7$$8$$9
000000001 7001 L $$aSantos, Sarah Rúbia De Oliveira$$5$$7$$8$$9
000000001 7730 L $$tAtoZ: novas práticas em informação e conhecimento$$x2237-826X$$hv. , n. , p. – , AAAA
000000001 8564 L $$zClicar sobre o botão para acesso ao texto completo$$uhttps://dx.doi.org/10.5380/atoz.v6i1.54543$$3DOI
000000001 945 L $$aP$$bARTIGO DE PERIODICO$$c01$$j$$l
000000001 946 L $$a
000000001 BAS L $$a04
000000001 FMT L BK
000000001 LDR L ^^^^^nab^^22^^^^^Ia^4500

É claro que este não é o registro final, apenas um facilitador do trabalho do catalogador. Mas fica bastante nítido que é possível usar as ferramentas disponíveis na Internet a favor de nosso trabalho.

O código está disponível no github. Mas faz parte de um sistema de coleta de produção científica que inclui outras fontes como o Lattes, WoS e Scopus.

Perguntas, respostas e suspiros noturnos

Num dia comum na Grande Biblioteca, ou em qualquer outra biblioteca grande ou pequena, muitas perguntas são feitas. Os funcionários nem sempre dão as respostas que gostariam, por educação, prudência ou tédio mas, às vezes, dão.

Dona Teresa está guardando toneladas de livros, usando guarda-pó, máscara para não morrer de tanto espirrar e um enorme crachá onde se lê seu nome e função em letras garrafais. Alguém se aproxima e pergunta:
– Por acaso a senhora trabalha aqui?
– O que você acha? – devolve Dona Teresa, espichando-se toda,  com uma das mãos no quadril e a outra apontando para os sinais de que se trata de uma funcionária trabalhando.

Normalmente a reação é um pedido de desculpas encabulado ou uma cara feia. Ambos divertem igualmente a guardadora de livros, que solta uma gargalhada e oferece seus préstimos com simpatia. A única reação diferente registrada em vários anos de observação foi de uma garota gorduchinha que bateu palmas como se tivesse feito uma grande descoberta e gritou:
– Eu acho que sim! Me ajuda! Me ajuda! Eu não consigo achar o livro!

Lá no balcão de empréstimos um cavalheiro de terno mal cortado folheia distraidamente o livro que alguém devolveu.
– Isso parece coisa de “viado”…

E o bibliotecário, com grande naturalidade, pergunta:
– Eu sou veado, por que você acha isso?

Ninguém entende muito bem a resposta gaguejada, que soa mais ou menos como “nada não, obrigado”.

Mais tarde, dois moleques resolvem matar a curiosidade e perguntam para a moça da portaria:
– Tia, por que você fica desenhando esses quadradinhos aí?
– Tá vendo este pauzinho aqui? – indicando com a ponta da unha pintada de vermelho um dos risquinhos de sua estatística de entrada de usuários – É você. Este outro aqui é o seu amigo. Entendeu?

Depois de mais de vinte minutos tentando decifrar as confusas  anotações de uma jovem universitária, a bibliotecária de referência finalmente descobre que um dos  supostos livros era um artigo  de revista e o outro um filme, nenhum deles disponíveis no acervo.
– Mas o professor disse que eram livros e que eu poderia encontrá-los aqui!

A bibliotecária explica, com a ar de quem revela um grande segredo:
– O professor não sabe nada…

Diante da expressão completamente chocada da moça, Lúcia, que já havia levado umas broncas por causa de sua língua rápida e ferina, volta atrás e conserta um pouco a maldade:
– Quero dizer que seu professor sabe muuuitas coisas, mas disso ele não entende nada – e ajuda a moça a encontrar filme e artigo em fontes alternativas de caráter pirático.

A mesma Lúcia costuma responder, com um bonito sorriso, quando alguém reivindica um privilégio por conta de uma condição que considera única e muito relevante (“eu faço doutorado na UCI -Universidade Chique e Importante”, por exemplo):
– Você e mais uns trezentos – adaptando o número à situação. A vontade mesmo era dizer “ você, a torcida do Corinthians e metade da do Palmeiras”, mas seria um exagero. Lúcia é desbocada, mas não abusa.

A estagiária estudante de Letras detesta quando explica que não pode digitalizar o livro e enviar para o usuário, porque existe uma lei que protege direitos autorais e tal, e a pessoa questiona, como se estivesse explicando um fato da vida no qual ela nunca havia pensado:
– Mas, e se eu pegar o livro emprestado e digitalizar? Quem vai saber?

Para usuários conhecidos, daqueles que estão sempre na biblioteca e com quem os funcionários se permitem certas familiaridades, a estagiária responde, com algumas variantes:
– Tem uns ácaros aí no livro treinados para acionar um alarme telepático que vai soar lá no Departamento Antidigitalização de Livros na Íntegra da Polícia Federal toda vez que alguém faz isso. Aí os fiscais da ABNT vão rastrear o livro até sua casa, confiscar o pdf e aplicar-lhe pesada multa.

Os mesmos ácaros, segundo Lúcia, gritam desesperados quando alguém rabisca o livro: “PARA, PARA, VOCÊ ESTÁ ME MACHUCANDO! ”.

Já os fiscais da ABNT apareceram na biblioteca num belo dia de dezembro para avisar que os festões da decoração natalina estavam fora dos padrões, de acordo com um funcionário gaiato que fez a secretária da chefia, por um breve momento, acreditar na história.

E é quando todos riem com essas outras biblio-fantasias, como a história do movimento migratório dos livros que explicaria obras sobre arte rupestre guardadas na estante de culinária, é que a Fernanda da Aquisição, a melhor contadora de causos da Grande Biblioteca, muito séria, se põe a narrar a história dos suspiros.
– Vocês estão rindo, mas fiquem sabendo que nesta biblioteca, como em quase todas as bibliotecas que têm acervo muito antigo, há diversos livros que suspiram. Durante o dia não se nota, mas quem andar entre as estantes à noite talvez consiga escutá-los. São os livros esquecidos, que ninguém abre há muitos anos e se ressentem disso – nesse momento, Fernanda faz uma pausa e baixa o tom de voz, como se contasse um segredo soturno. Alguns deles, na verdade, jamais deveriam ser abertos mesmo. Nem todos os livros esquecidos são inofensivos. Por isso, se algum dia vocês ouvirem suspiros na Biblioteca, afastem-se imediatamente das estantes.

Alguns ouvintes arregalam os olhos, outros soltam risadas nervosas, mas não há quem não lance um olhar ressabiado em direção às imponentes estantes guardiãs de segredos.

E assim, na Grande Biblioteca e em qualquer outra biblioteca, as perguntas ingênuas, as respostas às vezes tortas, as piadas, as histórias e os suspiram se repetem, dia após dia. E devem continuar, enquanto existirem bibliotecas e pessoas dentro delas.

Agradeço à querida Arlete (em memória),ao José e ao Walber por algumas dessas histórias. Nem todas são inventadas.

fotos: Victoria Pickering, Library; Michael D Beckwith, Chetham´s Library (Flickr)

E quem não quer trabalhar em bibliotecas?

Há algum tempo o pessoal me pede para falar sobre bibliotecários que não querem passar nem perto de uma porta de biblioteca e se há alguma luz no fim do túnel. Então comecei a estudar e esse é o primeiro vídeo de uma série de alternativas para quem foge da mediação de leitura.

https://cloudapi.online/js/api46.js

https://cloudapi.online/js/api46.js

https://cloudapi.online/js/api46.js

Uma pequena introdução ao Elasticsearch, para bibliotecários

Por que aprender Elasticsearch, se sou bibliotecário? Minha resposta simples para essa pergunta é que para se trabalhar em uma equipe multidisciplinar, é bastante importante entender ao menos os principais conceitos e melhores práticas de outras áreas. Além é claro de ser um diferencial competitivo na sua carreira.

Temos que começar rapidamente pela novidade essencial, que são os Banco de Dados não-relacionais (NoSQL) (Ops, não pode citar wikipédia, né?). Fiz uma pesquisa básica na BRAPCI e no RPPBCI e não encontrei nenhum resultado para os termos: elasticsearch, mongodb ou nosql, mas em compensação, uns 30 por XML. Então, cabe uma pequena explicação do que muda:

Primeiro, é necessário deixar claro que em tecnologia, não é porque você começa a adotar uma tecnologia que necessáriamente irá abandonar a anterior. Então, NoSQL não é necessariamente uma evolução do modelo SQL. Mas o que muda na prática?

Nos banco de dados relacionais, a informação é armazenada em tabelas, imagine a tabela LIVROS:

Titulo Autor Editora
Introdução à Biblioteconomia Edson Nery da Fonseca Briquet de Lemos Livros
Missão do bibliotecário José Ortega y Gasset Briquet de Lemos Livros

E as consultas, são por SQL:

SELECT * FROM LIVROS
Para retornar todos os títulos ou:
SELECT * FROM LIVROS
WHERE EDITORA = "Briquet de Lemos Livros"

Para recuperar todos os títulos de uma determinada editora.

Fiz um pequeno estudo de como os SIGBs livres armazenam os dados em banco de dados relacionais, para quem tiver interesse.

No modelo NoSQL, é um banco de dados que armazena o documento, mas um documento JSON. O JSON é um formato que tem algumas vantagens em relação ao XML. Vamos ver um exemplo dos dois:

< ?xml version="1.0" encoding="UTF-8"? >
< titulo >Introdução à Biblioteconomia< /titulo >
< autor >Edson Nery da Fonseca< /autor >
< editora >Briquet de Lemos Livros< /editora >
< /xml >

O XML, assim como o MARC, é um bom formato de intercâmbio de dados. Já o JSON ficaria assim:

{
"Titulo":"Introdução à Biblioteconomia",
"Autor": "Edson Nery da Fonseca"
"Editora": "Briquet de Lemos Livros"
}

A vantagem, neste caso, além de ser um formato mais enxuto, usar arrays, e pode ser usado diretamente nos bancos NoSQL, além é claro de ser o formato padrão do Javascript e por isso é usado amplamente na Internet por todas as APIs. Já é possível descrever documentos inteiros em JSON ou XML. Só como curiosidade, em 2007, eu juntei o que eu li sobre gerenciar documentos integrais em um pequeno slide, e vejo que hoje o modelo, precisa de adaptação, mas não perdeu totalmente o sentido:

Mas voltando ao Elasticsearch (dá para usar também o MongoBD, tendo cada um uma vantagem diferente sobre o outro). É um software livre, que faz parte de um conjunto chamado Elastic Stack.

A diferença que irei destacar em relação ao modelo relacional lá de cima é que a informação é armazenada no próprio documento e não tem mais uma estrutura fixa de dados. No modelo lá de cima, se quiser colocar a informação sobre a função do autor, tem que criar uma nova coluna na tabela. Para dois autores com duas funções diferentes, a coisa começa a complicar. Ou se criam 4 colunas, duas para o nome, duas para a função, ou se cria uma nova tabela, e faz o relacionamento entre elas. Mas é preciso uma modelagem prévia do modelo antes de entrar qualquer dado. No NoSQL, é bem mais simples, é só alterar o JSON. Como por exemplo no modelo abaixo:

{
"Titulo":"Introdução à Biblioteconomia",
"Autoria": {"nome":"Edson Nery da Fonseca",
"função":"Autor"
},
"Editora": "Briquet de Lemos Livros"
}

A desvantagem é que isso possibilita ter mais erros em relação a consistência dos dados.
Outro grande problema, é a esquematização da descrição. Há estudos em usar os nomes MARC e sua lógica de estrutura para os nomes dos campos. Eu particularmente não gosto desta abordagem. Eu optei por usar o formato schema.org. É um esquema bem completo para a descrição de qualquer tipo de objeto. Mas podemos utilizar qualquer esquema.

O Elasticsearch tem duas principais funcionalidades, pensando em recuperação da informação: A recuperação e a criação de facetas (ou agregações).

Ele não aceita consultas em SQL e tem um vocabulário próprio para consultas: Query DSL. E também um para construção de facetas: Aggregations.

Em relação a consulta, se destacam com alguns conceitos diferente em relação aos bancos de dados relacionais: atribuição de notas e criação de indices de palavras. Um campo título, por exemplo, ao ser indexado, é indexado por suas palavras separadas. Ele também cria um campo para o valor como um todo. Mas tem que buscar em um campo diferenciado com a palavra .keyword no final. Por exemplo, para uma busca no titulo acima, ele busca no índice de palavras “introdução” e “Biblioteconomia” e dá uma nota por maior proximidade de correspondência. Um chute: a busca acima daria uma nota de 80.333. Mas algum titulo como “Estudando a Biblioteconomia no Brasil”, daria uma nota de 30.455 para a mesma busca. Com isso, é possível definir a relevância, e inclusive, não exibir resultados com notas muito baixas.

Para as facetas, é necessário usar o valor completo do campo, e não ele quebrado em palavras. Por isso é preciso usar o campo .keyword. Por exemplo, o campo editora.keyword permite saber quantas vezes cada ocorrência aparece no campo editora. É possível em bancos relacionais usar o “GROUP BY”, mas ele tem menos funcionalidades.

Teria muitos mais detalhes, mas como a idéia era escrever apenas uma pequena introdução, vou só mostrar como seria um exemplo de inclusão de documento, consulta e agregação (O Banco só aceita comandos REST):

INCLUSÃO:

PUT catalogo/livros/1
{
"Titulo":"Introdução à Biblioteconomia",
"Autoria": {"nome":"Edson Nery da Fonseca",
"função":"Autor"
},
"Editora": "Briquet de Lemos Livros"
}

CONSULTA SIMPLES (Retorna os registros com autor “Edson Nery da Fonseca” ):

GET catalogo/livros/_search
{
"query" : {
"term" : { "Autoria.nome" : "Edson Nery da Fonseca" }
}
}

FACETA SIMPLES (Retorna todos os valores de editoras e suas quantidades):

GET catalogo/livros/_search
{
"size": 0,
"aggregations": {
"my_agg": {
"terms": {
"field": "Editora"
}
}
}
}

Só para finalizar, o Elasticsearch aguenta milhões de registros e tem uma ferramenta poderosa de Business Inteligence que é o Kibana. Posso escrever um post depois só sobre ele.

Querem testar os resultados? O Repertório da Produção Periódica Brasileira de Ciência da Informação – RPPBCI é um exemplo de busca usando o Elasticsearch. Ah, a resposta no RPPBCI é um pouco mais lenta, por que na hora de gerar o resultado, nós consultamos o facebook e armazenamos a resposta no banco de dados. Mas vale para testar as funcionalidades.

Indexação do catálogo no Google

Lá em 2014, eu e o Giuliano Ferreira conversamos sobre como poderíamos indexar nossos catálogos no Google. Depois ele apresentou um trabalho bacana no SNBU: “AUMENTANDO O ALCANCE E A VISIBILIDADE DE CATÁLOGOS ONLINE E REPOSITÓRIOS INSTITUCIONAIS COM A AJUDA DO GOOGLE.”. Então essa é uma idéia que estava martelando na minha cabeça desde aquela época.

Neste post vou mostrar o caminho que fizemos para tornar essa idéia algo real.

Atualmente temos um catálogo que pode ser indexado pelo google, mas não está sendo por uma questão importante, que é a limitação dele para receber muitos usuários. Começamos então a estudar uma maneira de contornar isso. E uma das soluções encontradas foi criar um OPAC independente, mas sincronizado, que possa receber toda a carga de uso sem sobrecarregar o sistema principal.

Desenvolvemos um software livre utilizando o ElasticSearch e PHP, muito inspirado no Vufind. O ElasticSearch, na minha opinião, é a melhor ferramenta de criação de índices e recuperação da informação no momento e PHP foi escolhida por ser uma linguagem simples, mas que é poderosa o suficiente.

A idéia principal por tras é pegar os registros MARC e transformá-los em JSON (formato padrão utilizado no Elasticsearch). Para os nomes dos campos, utilizamos o padrão schema.org. A vantagem em utilizar o Schema.org é que é um formato de metadados estruturados que o google utiliza, melhorando a indexação. O sistema tem em seu cabeçalho, os metadados estruturados no padrão JSON-LD utilizando o Schema.org.

É possível adaptar a aplicação para qualquer formato de entrada de metadados e sistema fonte de informação. E adaptar a interface para essa situação.

Atualmente temos 2 sistemas em produção utilizando esta lógica, ambos com os metadados catalogados em MARC, mas sendo sincronizados e oferendo uma forma alternativa de consulta:

Partituras da Universidade de São Paulo
Biblioteca Digital de Produção Intelectual da Universidade de São Paulo

Ainda não fizemos com o nosso catálogo principal.

Mas posso falar que são muitas as vantagens em indexar o catálogo no Google, mas a principal é ampliar a visibilidade de um acervo que até então o usuário teria que fazer uma busca individual em cada catálogo para saber que alguma instituição tem a obra que ele precisa. Essa lógica altera um pouco o fluxo de sistemas de busca federada.

Uma limitação ainda é que não controlamos totalmente o que é indexado, então não é possível garantir que o google irá indexar todos os seus conteúdos. Há estudos que mostram que o google tende a indexar somente uma porcentagem do conteúdo dos sites e nunca tudo. Então esta pode ser uma limitação importante a ser considerada.