O samba do bibliotecário doido #2

Recebi hoje do Caruso o link para o post “O samba do bibliotecário doido“, publicado no TodoProsa, blog do Sérgio Rodrigues. A gente já havia tratado do assunto internamente, mas a Teresa Rúbio levantou a bola de novo, então vou chutar.

O texto é esse:

O que os livros “A condição humana”, de André Malraux, “Killer in the rain”, de Raymond Chandler, “Christine”, de Stephen King, e “The complete shorter fiction”, de Virginia Woolf, têm em comum? Foram todos lançados no ano de 1899, segundo o Google Book Search. Onze anos depois de “A fogueira das vaidades”, de Tom Wolfe.

E o pior é que esse tipo de disparate está muito longe de ser raro na Biblioteca Universal do Google, que chega a extremos bibliográficos hilariantes como o de classificar uma edição de “Moby Dick” na rubrica Computação – informa Geoffrey Nunberg em artigo (em inglês) publicado pelo “Chronicle of Higher Education”.

Sim, em breve todo o conhecimento produzido pela humanidade estará online. Resta saber a que preço.

Eu compreendo o texto, é uma reação natural e comum de quem analisa a situação somente pelo seu referencial histórico sem entender mesmo o problema. Esses dias o Gmail ficou for do ar né. E o melhor tweet que eu li a respeito foi: @3df O GMail funciona 10 anos sem parar, falha meia horinha e vc diz que vai trocar??? Ah, vai, olha bem pro seu marido!!!!! @omdt

Eu sei que toda a história do Google Books é bastante complexa. E nenhuma afronta ao Sérgio, ao contrário, acho que se os problemas foram detectados, nada melhor do que expo-los e tentar resolve-los. Não tem nada aqui de #mimimi bibliotecário.

Mas de certo modo, fica mais fácil pegar um problema bem específico e questionar: ahá “em breve todo o conhecimento produzido pela humanidade estará online. Resta saber a que preço.”

Outra coisa que vi quando tava pesquisando twitter é que algum cara publicou um comentário no mashable indicando uma equação matemática que prova que se a produção de tweets é indiscriminada, então o valor tende a zero. Só que um matemático rebateu com a real interpretação da mesma equação, dizendo que o valor médio tende a zero, mas o valor geral é completamente distante de zero. E isso é o que a maioria das pessoas não compreende quando se trata de conteúdo web.

Eu tenho quase certeza que o “release date” (que é diferente de publishing date) 1899 tem a ver com as restrições constitucionais americanas, direitos autorais.

Mas isso tem ligação direta com outras coisas que eu já vinha falando nas internas. Pra que se preocupar com descrição bibliográfica? Who cares? Qual é o futuro dos catálogos, dos catalogadores?

A minha visão simplificada para um catálogo moderno de bibliotecas (qualquer biblioteca que recebe público) é bem simples: google appliance e aqua browser (ou algo tipo encore).

– catalogação: poucos bibliotecários fazendo a catalogação inicial; a catalogação deixa de ser vital já que a recuperação da informação agora é potente (todo a história da biblioteconomia foi baseada na organização para a recuperação. O que o google fez foi de maneira geral inverter a lógica, de melhorar a recuperação independente da organização – “a nova desordem digital“).

Voltando ao texto, qual é a probabilidade de um leitor de ficção querer ler livros publicados somente em um ano determinado? Para o caso das buscas científicas, a datação é importante, mas daí os próprios leitores podem se encarregar das correções necessárias, que comparadas ao volume total, tende a ser muito baixo.

Eu por exemplo sou pesquisador da área de blogs, eu sei que é improvável um artigo sobre blogs ter sido escrito em 1992, por exemplo, e conheço perfeitamente a história do advento das técnicas para reconhecer falhas. Bastaria eu entrar em contato ou ter a possibilidade de editar o conteúdo.

O acesso facilitado é uma ameaça para aqueles que gostam de se sentir privilegiados. Além disso, esse pensar sobre o conhecimento faz sentido na perspectiva de empilhador de livros. “Ohhhh meu deus, em qual prateleira esse aqui fica? 1800? 1900?”

Grande parcela das minhas citações em artigos de cunho científico não mudam NADA em seu significado caso as datas dos trabalhos estejam equivocadas. Ou seja, este erro afeta um número ínfimo de pesquisas.

Na dá pra subestimar a inteligência das máquinas e pior, das pesssoas.

13 pensamentos em “O samba do bibliotecário doido #2”

  1. Exatamente. Uma argumentação ruim parte de premissas fracas, o que é o caso deste texto do Sérgio Rodrigues. O mais interessante é a importancia que dão para algo assim. Meu, já recebi esse texto umas 4 vezes. Será que não conseguimos nem avaliar que o texto é ruim e deixá-lo sumir na Web?

  2. Bingo!

    Era isso que eu tentava dizer na aula de Produtos da Recuperação da Informação, quando a prof. dizia, toda feliz, que web precisa ser organizada no futuro.

    Não faz o menor sentido bibliotecários organizarem, ou pior ainda, indexarem a web.

    Sobre as datas, acho que só essencial que estejam corretas em legislação, pois a depender do órgão emissor, todo ano existe a Resolução 1, 2, 3… E vira confusão mesmo. Fora essa hipótese, as datas tendem a ser irrelevantes.

  3. Moreno, obrigado pelo link e pelos comentários.

    Um recado para Murakami: meu texto pode ser ruim, mas sequer desenvolve uma argumentação. Não precisa. A idéia ali é apenas dar uma notícia e linkar o artigo – este sim, cheio de argumentos que eu adoraria ver você desmontar – do “The Chronicle of Higher Education”. Você leu?

    Confesso que me preocupa essa tendência a, em nome de um certo “saber especializado”, tratar como assunto indigno de comentário problemas tão graves de indexação, em vez de buscar suas razões para corrigi-los o mais depressa possível. O Google está construindo a toque de caixa A grande biblioteca digital do mundo. Dificilmente haverá outra que possa competir com ela. Não sou bibliotecário, mas a mim interessa – e muito – que ela não seja um campo minado para os pesquisadores do futuro.

    Abraços a todos.

  4. Na minha humilde opinião erros vão existir em todo sistema que tenha interferência humana.. Se analizarmos qualquer catálogo de biblioteca encontraremos erros parecidos ou piores que os mencionados, nenhuma biblioteca é perfeita,o Google tb não pode ser. Outra coisa: O Gloogle não é uma organização que vai dominar o mundo e todo o conhecimento da humanidade, isso é utopia. Do jeito que as pessoas falam, parece que todo dia rola uma reunião no Google, tipo “Pink e Cérebro dos Animaniacs”: O que vamos fazer hoje Sergey Brin? Vamos dominar o mundo!!

  5. Em primeiro lugar, acho que o tom emotivo dos argumentos é totalmente natural. Não levem para o lado pessoal. Se nem o Suplicy segura mais as emoções em fala mansa, que dirá nós, pobres mortais. rs

    Quanto ao seu pedido Sergio, para desmontar o texto mencionado, esta é fácil.

    Um ponto importante é que esta pseudo democracia não ajuda. Não é o ativismo de sofá que irá resolver, mas iniciativas que descentralizam a rede. É assim com conteúdo, e, muito mais importante ao meu ver, com código e infraestrutura. Quantas organizações no mundo controlam as redes de transmissão? Estes são os verdadeiros intermediários. Estes são os “inimigos”, donos do código por trás de tudo que consumimos online. Solução tecnológica já temos, como as redes p2p Mesh e por aí vai…

    Resumindo, para discutir isto é preciso saber que um texto totalmente construído a partir da defesa de “metadados confiáveis sobre dados e categorias” já foi completamente desmontado por Weinberger, em A Nova Desordem Digital, já citado. Aqui não precisamos de gavetas.

    Não sou defensor de monopólios e menos ainda de críticas fora do contexto de sua época. Sendo simplista, nos casos citados uma busca no próprio Google é capaz de corrigir o problema dos nobres pesquisadores.

    Abraços.

  6. Leandro, me desculpe se eu estiver enganado ao detectar um desagradável cheiro de corporativismo nessa rejeição liminar ao artigo do Chronicle que encontro aqui. O mais curioso é que o tal artigo, longe de ser um Google-hater, apenas aponta falhas, cobra soluções e traduz a decepção do mundo acadêmico com uma ferramenta que, potencialmente, seria a melhor notícia para os pesquisadores desde a invenção da biblioteca. Não precisamos de gavetas, você diz. Suponho que se trate de um axioma. Pois eu acho que precisamos cada vez mais, e desesperadamente, de boas indexações. Mas devo calar a boca porque, afinal, só quem tenha lido fulano ou sicrano pode entrar nessa discussão, certo? Para todos os efeitos é como se erros sistemáticos de indexação, mais do que desculpáveis, fossem desejáveis. Triste constatar isso num espaço mantido por bibliotecários – que eu não conhecia, e onde vim parar porque me chamaram. Mas algo me diz que o Google (no momento, por razões simplesmente econômicas, o único ente na esfera pública ou privada com musculatura para organizar essa bagunça, seja pseudo ou real a democracia que você favorece) pensa diferente de você e já está tratando de consertar as bobagens que fez. Posso estar errado. Afinal, escritor não é bibliotecário, e não só não li beltrano como não tenho a menor intenção de lê-lo.

  7. Olá Sérgio,
    Se há corporativismo, eu também estou do lado de fora, não sou bibliotecário.

    E ler fulano ou ciclano não é de fato obrigatório, apenas representa a minha preguiça e incapacidade de explicar algo já muito bem defendido por outros especialistas.

    Por que só apontar os exemplos ruins? Por que não discutimos também os exemplos bons? Que sistema de categorias controladas me retornaria algo como uma COLLIE BARBUDA em seu MAC?
    http://www.flickr.com/photos/johncatral/1414807365/

    Isto resume boa parte do tal livro, das idéias, e toda esta discussão, mas se ainda assim achar que não é suficiente, não fará mal nenhum para mim você continuar achando que estamos mesmo com algum tipo de perseguição… 😉

    abraços

  8. Não vi traço de perseguição, Leandro. (Não entendi a piada, na verdade. Perseguição a quem? A mim???) Vi apenas aqueles sinais de arrogância e inapetência pelo debate que são comuns em comunidades de “especialistas” de qualquer área. Como estou de saída, isso não tem importância.

  9. Sinceramente, eu tenho uma visão um pouco diferente. O texto do Sérgio é fraco, vc pode corrigir e torná-lo melhor. Eu particularmente acredito que há um grande alarde por nada. Essa biblioteca NUNCA vai substituir nada. E não ajuda muito, só na pirataria, uma vez que a única coisa que dá para achar nela é um livro que você tem certeza que existe. Ou ter acesso a um livro mais antigo, mas acho que isso é muito pouco.
    O que vai mudar é a idéia de publicar digitalmente, e os e-readers sim terão livros bem descritos semanticamente. Os do passado não, os do futuro sim. E como o que melhor é a forma de como se manipula e interage com a informação, cada vez esses digitalizados serão menos utilizados.
    Quanto a pesquisa. Se um cientista quer fazer uma boa pesquisa, vai nas bases de dados cientificas. O leigo que não tem acesso vai sofrer tendo que pesquisar e obtendo uns 500000 resultados a cada busca.

  10. Eu discordo em muita coisa de você Tiago.
    Claro que a ideia de substituição é absurda. Não temos praticamente nenhum exemplo histórico que justifique tais previsões. Mas afirmar que ajuda apenas na pirataria? Tá faltando criatividade por aí. E é claro que eu não preciso saber a existência do livro numa base google, ele está lá, com boa parte de seu conteúdo indexado, na miscelânea.

    O significado disso é oportunidade de acesso camarada. E isso não muda menos do que, TUDO.

    Preferir se prender a uma esperança pela web semântica é quase religião. Esquece. Hoje já não precisamos dela para ver as coisas funcionarem, se o sonho da semântica vier, melhor. Mas a informação também chega aos ateus.

    E corrigindo seu pensamento para o meu: “se um cientista que fazer uma boa pesquisa, vai nos FILTROS que considera relevantes, sejam periódicos, blogs ou recados em guardanapo de bar”. Para cada formato ou fonte de informação, podemos citar milhares de exemplos para montar ou desmontar a credibilidade e relevância. Então liberte-se.

  11. Cópia do comentário que deixei lá no Sérgio Rodrigues:

    Fui fazer o dever de casa :-). Erros do Google Books, segundo o artigo:
    – O Google desenvolveu o sistema sem dar atenção à necessidade de metadados confiáveis. Metadados extraídos mecanicamente não são suficientes para fins acadêmicos.
    – Busca ligar os resultados das buscas a anúncios (associar Leaves of grass de Walt Whitman à venda de plantas e grama)
    – Pressa em ficar à frente da concorrência (todo mundo sabe no que dá a pressa)
    Finalizando: gerenciar uma grande biblioteca digital (que se propõe a ser universal) requer habilidades diferentes das que fizeram o Google dominar a internet. Já devem estar matutando como fazer isso.

    O professor Murilo Cunha apontou no seu artigo objeções ao Google Books, segundo David Bearman. Dentre essas objeções:
    “- A apresentação dos textos baseadas em palavras descontextualiza causando prejuízos culturais, e o interesse primário dela [Google Books] é a colheita de palavras para lincar anúncios;
    – O mecanismo de busca do Google Books (e o seu plano de negócios) promove resultados que não são consistentes com as classificações que os eruditos ligados às culturas nas quais os textos foram escritos iriam aprovar;”

    Artigo completo disponível em
    http://www.eci.ufmg.br/pcionline/index.php/pci/article/viewFile/221/388

    Frase colhida do artigo: Sem uma biblioteca real, a digital não será mais que um punhado de bits.

  12. Dão a casa, e quem se muda ainda quer o reboco?

    Bibliotecas reais existem, universais não, até por que pensar isso em espaço físico não cabe, e é até bem simples lembrar-se disso. Agora o que impede de haver digitalizações do que já existe e poder ser salvo do tempo, e acessado por que não tinha acesso? não entendo a “preocupação”, nem tampouco a alcunha ao Google de simples mecanismo de busca, já que o mesmo vem provando a muito tempo que não é somente isso a que se propõe.

    O que livra o Google Books de ser um sistema de interoperabilidade e baseado na experiência do usuário, tanto na inserção, como modificações de conteúdos para uma melhor busca revocativa?

    Vendo alguns comentários parece que a web funciona de outra maneira, e espera-se um fracasso de algo que acalante um fracasso já eminente, que é esperar organizar estantes em um mundo sem elas.

    Esqueçam web semântica, a web é o que é graças a miscelânea.

    Um informação irrelevante pra alguém, pode não ser pra outro. Heim heim, hã hã, entenderam?

Deixe uma resposta