Nosso sonho é viver em um mundo em que as informações são estruturadas na fonte e os metadados são reaproveitados de maneira precisa, pois foram descritos utilizando semântica computacional. Mas ainda estamos longe desta realidade. Porém, já estamos em um momento em que as informações nascem digitais, e por isso, já é possível tirar proveito desta característica. Como nesta nova realidade, reaproveitar conhecimento é a lei, conseguimos utilizar um software bastante completo chamado GROBID (or Grobid) que significa “GeneRation Of BIbliographic Data”. Sua descrição é a seguinte:
“GROBID is a machine learning library for extracting, parsing and re-structuring raw documents such as PDF into structured TEI-encoded documents with a particular focus on technical and scientific publications”
Em uma sintese simples, é uma biblioteca que utiliza aprendizado por máquina para extrair, fazer o parsing e re-estruturar documentos científicos em documentos estruturados em um formato TEI. É importante por que estrutura semanticamente para máquinas informações que antes estavam estruturadas somente para humanos. É uma ferramenta bastante utilizada, inclusive por serviços enormes como o ResearchGate.
O que fizemos foi utilizar os web services dela para ao subir um PDF, devolver o resultado em um formato MARC (Aleph Sequencial, compatível com o Software Aleph). É interessante pois é o resultado de toda uma cultura de software livre e remix (pois sem acesso a esses serviços, jamais conseguiriamos fazer algo assim).
O caminho é bastante simples, o nosso programa em PHP sobe o PDF e envia para o web service do Grobid, que estrutura o documento em Formato TEI. O programa então recupera as informações do TEI e estrutura em MARC (Aleph Sequencial), formato usado para poder importar no Aleph.
Por exemplo:
Baixei o PDF do artigo: Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016. E enviei para o Grobid. Se quiserem, podem testar o demo do Grobid (TEI > processFulltext Document). Um pedaço da resposta é:
< sourcedesc > < biblstruct > < analytic > < author > < persname xmlns="http://www.tei-c.org/ns/1.0" > < forename type="first" >Ronaldo< /forename > < forename type="middle" >Ferreira< /forename > < surname >Araujo< /surname > < /persname > < /author > < author > < persname xmlns="http://www.tei-c.org/ns/1.0" > < forename type="first" >Sarah< /forename > < forename type="middle" >Rúbia De Oliveira< /forename > < surname >Santos< /surname > < /persname > < author > < persname xmlns="http://www.tei-c.org/ns/1.0" > < orename type="first" >Janyelle< /forename > < forename type="middle" >Mayara< /forename > < surname >Bento< /surname > < /persname > < /author > < title level="a" type="main" >Mediação da informação e comunicação política no Facebook: desempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016< /title > < monogr > < title level="j" type="main" >AtoZ: novas práticas em informação e conhecimento< /title > < title level="j" type="abbrev" >AtoZ< /title > < idno type="eISSN" >2237-826X< /idno > < imprint > < publisher >Universidade Federal do Parana< /publisher> < biblscope unit="volume" >6< /biblscope> < biblscope unit="issue" >1< /biblscope> < biblscope unit="page" >17< /biblscope> < /imprint > < /monogr > < idno type="DOI" >10.5380/atoz.v6i1.54543< /idno > < note type="submission" >Recebido/Submitted: 15 Ago. 2017; Aceito/Approved: 22 Set. 2017< /note > < note >ARTIGO | PAPER Autor para correspondência/Mail to: Ronaldo Ferreira Araujo< /note >
Como podemos observar, o Grobid foi bem preciso em identificar informações sobre o artigo. Então, desenvolvemos um programa que recebe esta resposta e transforma em um formato MARC e a resposta fica desta maneira:
000000001 008 L ^^^^^^s^^^^^^^^^^^^^^^^^^^^^^000^0^^^^^d
000000001 0247 L $$a10.5380/atoz.v6i1.54543$$2DOI
000000001 040 L $$aUSP/SIBI
000000001 0410 L $$a
000000001 044 L $$a
000000001 1001 L $$aAraujo, Ronaldo Ferreira$$5$$7$$8$$9
000000001 24510 L $$aMediação da informação e comunicação política no Facebook$$bdesempenho do candidato Rui Palmeira à Prefeitura de Maceió em 2016
000000001 260 L $$a$$bUniversidade Federal do Parana$$c
000000001 300 L $$ap. –
000000001 500 L $$a
000000001 5101 L $$aIndexado no:
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 650 7 L $$a
000000001 7001 L $$aBento, Janyelle Mayara$$5$$7$$8$$9
000000001 7001 L $$aSantos, Sarah Rúbia De Oliveira$$5$$7$$8$$9
000000001 7730 L $$tAtoZ: novas práticas em informação e conhecimento$$x2237-826X$$hv. , n. , p. – , AAAA
000000001 8564 L $$zClicar sobre o botão para acesso ao texto completo$$uhttps://dx.doi.org/10.5380/atoz.v6i1.54543$$3DOI
000000001 945 L $$aP$$bARTIGO DE PERIODICO$$c01$$j$$l
000000001 946 L $$a
000000001 BAS L $$a04
000000001 FMT L BK
000000001 LDR L ^^^^^nab^^22^^^^^Ia^4500
É claro que este não é o registro final, apenas um facilitador do trabalho do catalogador. Mas fica bastante nítido que é possível usar as ferramentas disponíveis na Internet a favor de nosso trabalho.
O código está disponível no github. Mas faz parte de um sistema de coleta de produção científica que inclui outras fontes como o Lattes, WoS e Scopus.
Deixe uma resposta para Flávio Borges Arquiteto SalvadorCancelar resposta