Catalogação semi-automatizada de artigos de periódicos em PDF para MARC

Nosso sonho é viver em um mundo em que as informações são estruturadas na fonte e os metadados são reaproveitados de maneira precisa, pois foram descritos utilizando semântica computacional. Mas ainda estamos longe desta realidade. Porém, já estamos em um momento em que as informações nascem digitais, e por isso, já é possível tirar proveito desta característica. Como nesta nova realidade, reaproveitar conhecimento é a lei, conseguimos utilizar um software bastante completo chamado GROBID (or Grobid) que significa “GeneRation Of BIbliographic Data”. Sua descrição é a seguinte:

“GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured TEI-encoded documents with a particular focus on technical and scientific publications”

Em uma sintese simples, é uma biblioteca que utiliza aprendizado por máquina para extrair, fazer o parsing e re-estruturar documentos científicos em documentos estruturados em um formato TEI. É importante por que estrutura semanticamente para máquinas informações que antes estavam estruturadas somente para humanos. É uma ferramenta bastante utilizada, inclusive por serviços enormes como o ResearchGate.

O que fizemos foi utilizar os web services dela para ao subir um PDF, devolver o resultado em um formato MARC (Aleph Sequencial, compatível com o Software Aleph). É interessante pois é o resultado de toda uma cultura de software livre e remix (pois sem acesso a esses serviços, jamais conseguiriamos fazer algo assim).

O caminho é bastante simples, o nosso programa em PHP sobe o PDF e envia para o web service do Grobid, que estrutura o documento em Formato TEI. O programa então recupera as informações do TEI e estrutura em MARC (Aleph Sequencial), formato usado para poder importar no Aleph.

Por exemplo:

Baixei o PDF do artigo: Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016. E enviei para o Grobid. Se quiserem, podem testar o demo do Grobid (TEI > processFulltext Document). Um pedaço da resposta é:


< sourcedesc >
                < biblstruct >
                    < analytic >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Ronaldo< /forename >
                                < forename type="middle" >Ferreira< /forename >
                                < surname >Araujo< /surname >
                            < /persname >
                        < /author >
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < forename type="first" >Sarah< /forename >
                                < forename type="middle" >Rúbia De Oliveira< /forename >
                                < surname >Santos< /surname >
                            < /persname >
                        
                        < author >
                            < persname xmlns="http://www.tei-c.org/ns/1.0" >
                                < orename type="first" >Janyelle< /forename >
                                < forename type="middle" >Mayara< /forename >
                                < surname >Bento< /surname >
                            < /persname >
                        < /author >
                        < title level="a" type="main" >Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016< /title >
                    
                    < monogr >
                        < title level="j" type="main" >AtoZ: novas práticas em informação e conhecimento< /title >
                        < title level="j" type="abbrev" >AtoZ< /title >
                        < idno type="eISSN" >2237-826X< /idno >
                        < imprint >
                            < publisher >Universidade Federal do Parana< /publisher>
                            < biblscope unit="volume" >6< /biblscope>
                            < biblscope unit="issue" >1< /biblscope>
                            < biblscope unit="page" >17< /biblscope>
                        < /imprint >
                    < /monogr >
                    < idno type="DOI" >10.5380/atoz.v6i1.54543< /idno >
                    < note type="submission" >Recebido/Submitted: 15 Ago. 2017; Aceito/Approved: 22 Set. 2017< /note >
                    < note >ARTIGO | PAPER Autor para correspondência/Mail to: Ronaldo Ferreira Araujo< /note > 

Como podemos observar, o Grobid foi bem preciso em identificar informações sobre o artigo. Então, desenvolvemos um programa que recebe esta resposta e transforma em um formato MARC e a resposta fica desta maneira:

000000001 008 L ^^^^^^s^^^^^^^^^^^^^^^^^^^^^^000^0^^^^^d
000000001 0247 L $$a10.5380/atoz.v6i1.54543$$2DOI
000000001 040 L $$aUSP/SIBI
000000001 0410 L $$a
000000001 044 L $$a
000000001 1001 L $$aAraujo, Ronaldo Ferreira$$5$$7$$8$$9
000000001 24510 L $$aMediação da informação e comunicação política no Facebook$$bdesempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016
000000001 260 L $$a$$bUniversidade Federal do Parana$$c
000000001 300 L $$ap. –
000000001 500 L $$a
000000001 5101 L $$aIndexado no:
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 7001 L $$aBento, Janyelle Mayara$$5$$7$$8$$9
000000001 7001 L $$aSantos, Sarah Rúbia De Oliveira$$5$$7$$8$$9
000000001 7730 L $$tAtoZ: novas práticas em informação e conhecimento$$x2237-826X$$hv. , n. , p. – , AAAA
000000001 8564 L $$zClicar sobre o botão para acesso ao texto completo$$uhttps://dx.doi.org/10.5380/atoz.v6i1.54543$$3DOI
000000001 945 L $$aP$$bARTIGO DE PERIODICO$$c01$$j$$l
000000001 946 L $$a
000000001 BAS L $$a04
000000001 FMT L BK
000000001 LDR L ^^^^^nab^^22^^^^^Ia^4500

É claro que este não é o registro final, apenas um facilitador do trabalho do catalogador. Mas fica bastante nítido que é possível usar as ferramentas disponíveis na Internet a favor de nosso trabalho.

O código está disponível no github. Mas faz parte de um sistema de coleta de produção científica que inclui outras fontes como o Lattes, WoS e Scopus.

4 pensamentos em “Catalogação semi-automatizada de artigos de periódicos em PDF para MARC”

  1. Bacana a iniciativa!
    Tenho notado que a comunicação científica de acesso aberto como PUBMED, PUBMEDCentral, NLM etc tem utilizado amplamente a JATS da NCBI como DTD (que agora é a NISO Z39.96-2015). O SciELO utiliza um schema próprio baseado na JATS. Essa conversão é bastante comum nas bibliotecas científicas e bases de dados (apesar de que o WoS utilize schema próprio). Alguns convertem PDF OCR para XML, outros .DOC para XML, outros utilizam LaTeX como intermediário entre os dois formatos. Dá para “brincar” bastante! Legal saber que há pessoas que estão pensando nisso quanto ao MARC.

Deixe uma resposta