Do Google Scholar para o Wikidata: a experiência do CEPID NeuroMat no WikidataCon 2021

*Por Erika Guetti Suca

No dia 31 de outubro tive a oportunidade de participar da conferência online WikidataCon 2021. No evento, juntamente com Éder Porto, fiz uma apresentação do estudo (ainda em andamento) sobre os dados bibliográficos da rede de colaboradores do NeuroMat. Nela compartilhamos as lições aprendidas e os desafios encontrados no processo da pesquisa, que começou com o uso do Google Scholar e continuou até a identificação das suas potencialidades e a integração das informações com o ambiente do Wikidata.

O evento aconteceu nos dias 29, 30 e 31 de outubro. No primeiro dia, a conferência focou na discussão de um futuro sustentável, destacando tópicos como a necessidade da equidade de conhecimento, diversidade e do conhecimento marginalizado. Por conta da diversidade dos moderadores, o ambiente ficou mais rico e possibilitou discussões nas principais línguas de América Latina: espanhol, português e francês.

Nos dois dias seguintes do WikidataCon foram ressaltados tópicos mais específicos, como discussões técnicas da plataforma, a estimulação de novas ideias e o reconhecimento dos aspectos chaves do crescimento do Wikidata. No último dia também foram abordadas questões direcionadas aos problemas urgentes e as áreas necessárias para a evolução da plataforma.

O NeuroMat no Wikidata

*Por Miréia Figueiredo

Na reunião desta semana da equipe de difusão, Éder Porto apresentou o seu trabalho de coleta e organização de dados bibliométricos do CEPID NeuroMat. Há alguns meses, ele se dedicava a agrupar todos os artigos publicados por integrantes do NeuroMat no Wikidata e, hoje, explicou um pouco sobre esse processo e quais foram os resultados.

O ponto inicial do mapeamento desta rede de produção científica foi definido pelo artigo de Antonio Galves e Eva Löcherbach, publicado em 2013. A partir dele, o NeuroMat foi criado e os demais pesquisadores começaram a desenvolver estudos complementares.

Essa investigação detalhada da produção bibliográfica no centro de pesquisa, além de representar uma inovação na disponibilidade de dados, permite análises mais aprofundadas sobre as dinâmicas de estudos no local. Oferecendo números, por exemplo, a respeito da quantidade de publicações feitas por homens e mulheres e um panorama sobre o fluxo de produções ao longo dos anos. Este trabalho marca a despedida de Éder da equipe de difusão.

Pattypan: como utilizar a ferramenta para carregamentos no Wikimedia Commons

Por Veronica Stocco

O Pattypan é um software de código aberto que permite o carregamento automatizado de arquivos ao Wikimedia Commons. Basta preencher uma planilha modelo, e o programa realiza todos os passos do processo – do upload, à conexão com o elemento Wikidata relacionado à mídia (se houver algum). Caso haja um QID relacionado à imagem, o Pattypan utilizará as informações disponíveis no Wikidata para preencher automaticamente a página de descrição da mídia no Commons.

Ao abrir o Pattypan, há uma opção para gerar uma planilha que deverá ser preenchida com as informações relevantes sobre as mídias que serão carregadas. O ideal é criar a planilha no diretório no qual as mídias que serão carregadas se encontram. Isso não é obrigatório, porém é um facilitador, já que o programa identifica por conta própria os arquivos válidos que se encontram naquele diretório, e incluirá o caminho para os mesmos na planilha.

Após isso, pode-se escolher o template desejado para o carregamento. Existem vários templates pré-definidos, como o Artwork, Photograph, entre outros. Cada um possui campos distintos, que podem ou não ser incluídos. Há também a opção de definir um valor fixo para aquele campo, extremamente útil quando todas as obras foram criadas pelo mesmo autor ou fotografadas pela mesma pessoa. 

Com isso em mãos, basta preencher as colunas da planilha criada. Caso as mídias a serem carregadas já possuam um QID, não se esqueça de incluí-lo. Desta forma, não será necessário preencher um grande número de colunas, pois as informações relevantes sobre o item serão retiradas do próprio Wikidata.

Depois disso, é hora de fazer a validação da planilha. Caso algo não esteja correto, o Pattypan mostrará um aviso. Quando tudo estiver pronto, basta prosseguir com o processo: fazer seu login no Commons, iniciar o carregamento e esperar que todas as imagens sejam adicionadas ao Commons.

Mapa de neurocientistas brasileiros [Parte III]

Por Veronica Stocco

Quais universidades os neurocientistas brasileiros frequentaram? Ao longo das postagens anteriores, entendemos a estrutura que as perguntas que precisamos fazer ao banco de dados do Wikidata devem ter para responder a essa questão. Em bom português, são elas:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]
  • A universidade [X] fica nas coordenadas [Y]

Lembrando que as perguntas com objeto entre colchetes são aquelas de resposta aberta, pois não queremos pré-estabelecer um valor que elas devam possuir. Ao invés disso, queremos saber como as pessoas que filtramos até aqui responderiam a essas perguntas. 

Com isso em mãos, podemos iniciar o processo de “tradução” para SPARQL. A primeira coisa que precisamos dizer para o banco de dados é quais os nomes que usaremos para nos referir às informações que queremos retirar dele:

Quero uma pessoa, uma universidade, uma coordenada, que se encaixa nesse padrão:

“Traduzindo” para SPARQL, temos:

SELECT ?pessoa ?universidade ?coordenadas WHERE:

Não fica tão diferente assim, não é mesmo? E agora chegamos à parte principal do nosso código. Lembra daquela questão das triplas de sujeito – predicado – objeto? É agora que ela vai quebrar um galho. Ela pode ser traduzida para SPARQL como:

?sujeito wdt:predicado wd:objeto

Vamos por partes. ?sujeito é o nome que definimos no início desta postagem. O predicado é a propriedade (valor numérico iniciado por P) no qual o objeto que queremos encontrar (QID) se encaixa. Tendo isso em mente, nosso primeiro parágrafo fica assim:

?pessoa wdt:P31  wd:Q5;

(instância de)  (ser humano)

wdt:P27  wd:Q155;

(país de cidadania)  (brasil)

     wdt:P106  wd:Q6337803;

(profissão)  (neurocientista)

wdt:P69  ?universidade.

(universidade frequentada)

Enquanto ainda temos perguntas a fazer sobre a pessoa, terminamos a linha com um ponto e vírgula. Após fazer a última, colocamos um ponto final. E a última pergunta ficou um pouco diferente, como não podia deixar de ser. Afinal, não queremos filtrar os resultados de uma faculdade específica. Queremos saber quais são as faculdades que esses cientistas frequentaram. É por isso que damos um nome a essa resposta. 

E agora é hora de fazer uma pergunta para as universidades que essas pessoas frequentaram. 

Da postagem anterior, tínhamos que:

A universidade [X] fica nas coordenadas [Y]

Traduzindo para SPARQL, teremos: 

?universidade wdt:P625 ?coordenadas.

}

Com apenas essas linhas, já conseguiríamos gerar o mapa que queremos! Entretanto, ao passar o mouse sobre cada ponto do mapa, não veríamos o nome da universidade que ele representa, ou do cientista que estudou ali. Ao invés disso, veríamos apenas o QID deles. Para mudar isso, o primeiro passo é especificar quais valores queremos “ajeitar”. Fazemos isso adicionando Label após seus nomes:

SELECT ?pessoaLabel ?pessoaDescription ?universidadeLabel ?coordenadas WHERE {

Os itens no Wikidata possuem nomes (labels) em várias línguas. Ao fim do código, vamos especificar que queremos receber os labels em português do Brasil ou inglês.

SERVICE wikibase:label { bd:serviceParam wikibase:language “pt-br, en”.

}

E pronto! Você pode testar query que estudamos neste link. É possível visualizar os resultados como uma tabela ou um mapa. O Wikidata Query Service oferece várias formas interessantes de visualizar os resultados. Há também um grande acervo de queries já prontas – e essa é uma excelente forma de começar a trabalhar com SPARQL. Não é preciso escrever algo do zero: basta procurar uma query que faça algo parecido com o que você quer fazer. Para criar o exercício estudado nesta série de posts, por exemplo, me baseei na query “Locations of national parks”.

Mapa de neurocientistas brasileiros [Parte II]

Por Veronica Stocco

Na postagem anterior, estávamos tentando descobrir quais universidade os neurocientistas brasileiros frequentaram. Para isso, formulamos as seguintes indagações para o banco de dados do Wikidata:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]

A última pergunta tem um formato diferente das duas anteriores. Nas duas primeiras, só estamos interessados em uma resposta específica: pessoas que sejam brasileiras e neurocientistas, ponto. A resposta dessas perguntas nos ajuda a descartar opções nas quais não estamos interessados.

Porém, o intuito da última linha não é descartar opções. Depois de termos encontrado as pessoas que estamos buscando, podemos obter mais informações a respeito de cada uma delas. Temos um espaço em branco e queremos que o banco de dados o preencha para nós. No caso, queremos saber em qual universidade cada uma dessas pessoas se formou. 

Mas não basta saber a universidade. afinal, queremos um mapa. E, para isso, é necessário ter as coordenadas. Logo, precisamos fazer mais uma pergunta que termina com um espaço em branco: onde cada uma dessas universidades fica? Reescrevendo-a no formato de sujeito – predicado – objeto, temos:

A universidade [X] fica nas coordenadas [Y]

Temos uma lista bem definida e estruturada de perguntas que queremos fazer ao banco de dados. Na próxima postagem, veremos como traduzir essas perguntas para SPARQL.