O NeuroMat no Wikidata

*Por Miréia Figueiredo

Na reunião desta semana da equipe de difusão, Éder Porto apresentou o seu trabalho de coleta e organização de dados bibliométricos do CEPID NeuroMat. Há alguns meses, ele se dedicava a agrupar todos os artigos publicados por integrantes do NeuroMat no Wikidata e, hoje, explicou um pouco sobre esse processo e quais foram os resultados.

O ponto inicial do mapeamento desta rede de produção científica foi definido pelo artigo de Antonio Galves e Eva Löcherbach, publicado em 2013. A partir dele, o NeuroMat foi criado e os demais pesquisadores começaram a desenvolver estudos complementares.

Essa investigação detalhada da produção bibliográfica no centro de pesquisa, além de representar uma inovação na disponibilidade de dados, permite análises mais aprofundadas sobre as dinâmicas de estudos no local. Oferecendo números, por exemplo, a respeito da quantidade de publicações feitas por homens e mulheres e um panorama sobre o fluxo de produções ao longo dos anos. Este trabalho marca a despedida de Éder da equipe de difusão.

Pattypan: como utilizar a ferramenta para carregamentos no Wikimedia Commons

Por Veronica Stocco

O Pattypan é um software de código aberto que permite o carregamento automatizado de arquivos ao Wikimedia Commons. Basta preencher uma planilha modelo, e o programa realiza todos os passos do processo – do upload, à conexão com o elemento Wikidata relacionado à mídia (se houver algum). Caso haja um QID relacionado à imagem, o Pattypan utilizará as informações disponíveis no Wikidata para preencher automaticamente a página de descrição da mídia no Commons.

Ao abrir o Pattypan, há uma opção para gerar uma planilha que deverá ser preenchida com as informações relevantes sobre as mídias que serão carregadas. O ideal é criar a planilha no diretório no qual as mídias que serão carregadas se encontram. Isso não é obrigatório, porém é um facilitador, já que o programa identifica por conta própria os arquivos válidos que se encontram naquele diretório, e incluirá o caminho para os mesmos na planilha.

Após isso, pode-se escolher o template desejado para o carregamento. Existem vários templates pré-definidos, como o Artwork, Photograph, entre outros. Cada um possui campos distintos, que podem ou não ser incluídos. Há também a opção de definir um valor fixo para aquele campo, extremamente útil quando todas as obras foram criadas pelo mesmo autor ou fotografadas pela mesma pessoa. 

Com isso em mãos, basta preencher as colunas da planilha criada. Caso as mídias a serem carregadas já possuam um QID, não se esqueça de incluí-lo. Desta forma, não será necessário preencher um grande número de colunas, pois as informações relevantes sobre o item serão retiradas do próprio Wikidata.

Depois disso, é hora de fazer a validação da planilha. Caso algo não esteja correto, o Pattypan mostrará um aviso. Quando tudo estiver pronto, basta prosseguir com o processo: fazer seu login no Commons, iniciar o carregamento e esperar que todas as imagens sejam adicionadas ao Commons.

Mapa de neurocientistas brasileiros [Parte III]

Por Veronica Stocco

Quais universidades os neurocientistas brasileiros frequentaram? Ao longo das postagens anteriores, entendemos a estrutura que as perguntas que precisamos fazer ao banco de dados do Wikidata devem ter para responder a essa questão. Em bom português, são elas:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]
  • A universidade [X] fica nas coordenadas [Y]

Lembrando que as perguntas com objeto entre colchetes são aquelas de resposta aberta, pois não queremos pré-estabelecer um valor que elas devam possuir. Ao invés disso, queremos saber como as pessoas que filtramos até aqui responderiam a essas perguntas. 

Com isso em mãos, podemos iniciar o processo de “tradução” para SPARQL. A primeira coisa que precisamos dizer para o banco de dados é quais os nomes que usaremos para nos referir às informações que queremos retirar dele:

Quero uma pessoa, uma universidade, uma coordenada, que se encaixa nesse padrão:

“Traduzindo” para SPARQL, temos:

SELECT ?pessoa ?universidade ?coordenadas WHERE:

Não fica tão diferente assim, não é mesmo? E agora chegamos à parte principal do nosso código. Lembra daquela questão das triplas de sujeito – predicado – objeto? É agora que ela vai quebrar um galho. Ela pode ser traduzida para SPARQL como:

?sujeito wdt:predicado wd:objeto

Vamos por partes. ?sujeito é o nome que definimos no início desta postagem. O predicado é a propriedade (valor numérico iniciado por P) no qual o objeto que queremos encontrar (QID) se encaixa. Tendo isso em mente, nosso primeiro parágrafo fica assim:

?pessoa wdt:P31  wd:Q5;

(instância de)  (ser humano)

wdt:P27  wd:Q155;

(país de cidadania)  (brasil)

     wdt:P106  wd:Q6337803;

(profissão)  (neurocientista)

wdt:P69  ?universidade.

(universidade frequentada)

Enquanto ainda temos perguntas a fazer sobre a pessoa, terminamos a linha com um ponto e vírgula. Após fazer a última, colocamos um ponto final. E a última pergunta ficou um pouco diferente, como não podia deixar de ser. Afinal, não queremos filtrar os resultados de uma faculdade específica. Queremos saber quais são as faculdades que esses cientistas frequentaram. É por isso que damos um nome a essa resposta. 

E agora é hora de fazer uma pergunta para as universidades que essas pessoas frequentaram. 

Da postagem anterior, tínhamos que:

A universidade [X] fica nas coordenadas [Y]

Traduzindo para SPARQL, teremos: 

?universidade wdt:P625 ?coordenadas.

}

Com apenas essas linhas, já conseguiríamos gerar o mapa que queremos! Entretanto, ao passar o mouse sobre cada ponto do mapa, não veríamos o nome da universidade que ele representa, ou do cientista que estudou ali. Ao invés disso, veríamos apenas o QID deles. Para mudar isso, o primeiro passo é especificar quais valores queremos “ajeitar”. Fazemos isso adicionando Label após seus nomes:

SELECT ?pessoaLabel ?pessoaDescription ?universidadeLabel ?coordenadas WHERE {

Os itens no Wikidata possuem nomes (labels) em várias línguas. Ao fim do código, vamos especificar que queremos receber os labels em português do Brasil ou inglês.

SERVICE wikibase:label { bd:serviceParam wikibase:language “pt-br, en”.

}

E pronto! Você pode testar query que estudamos neste link. É possível visualizar os resultados como uma tabela ou um mapa. O Wikidata Query Service oferece várias formas interessantes de visualizar os resultados. Há também um grande acervo de queries já prontas – e essa é uma excelente forma de começar a trabalhar com SPARQL. Não é preciso escrever algo do zero: basta procurar uma query que faça algo parecido com o que você quer fazer. Para criar o exercício estudado nesta série de posts, por exemplo, me baseei na query “Locations of national parks”.

Mapa de neurocientistas brasileiros [Parte II]

Por Veronica Stocco

Na postagem anterior, estávamos tentando descobrir quais universidade os neurocientistas brasileiros frequentaram. Para isso, formulamos as seguintes indagações para o banco de dados do Wikidata:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]

A última pergunta tem um formato diferente das duas anteriores. Nas duas primeiras, só estamos interessados em uma resposta específica: pessoas que sejam brasileiras e neurocientistas, ponto. A resposta dessas perguntas nos ajuda a descartar opções nas quais não estamos interessados.

Porém, o intuito da última linha não é descartar opções. Depois de termos encontrado as pessoas que estamos buscando, podemos obter mais informações a respeito de cada uma delas. Temos um espaço em branco e queremos que o banco de dados o preencha para nós. No caso, queremos saber em qual universidade cada uma dessas pessoas se formou. 

Mas não basta saber a universidade. afinal, queremos um mapa. E, para isso, é necessário ter as coordenadas. Logo, precisamos fazer mais uma pergunta que termina com um espaço em branco: onde cada uma dessas universidades fica? Reescrevendo-a no formato de sujeito – predicado – objeto, temos:

A universidade [X] fica nas coordenadas [Y]

Temos uma lista bem definida e estruturada de perguntas que queremos fazer ao banco de dados. Na próxima postagem, veremos como traduzir essas perguntas para SPARQL.

Mapa de neurocientistas brasileiros [Parte I]

Por Veronica Stocco

Já parou para se perguntar quais universidades os neurocientistas brasileiros frequentaram?

Uma forma de abordar esse problema seria realizar uma série de pesquisas manuais – talvez pela Wikipedia. Após fazer uma série de buscas por artigos relacionados à neurociência, seríamos capazes de elaborar uma longa lista dos neurocientistas e selecionar aqueles que são brasileiros. Tendo esta lista final em mãos, poderíamos pesquisar qual foi a universidade que frequentaram e procurar as coordenadas dessas instituições para marcá-las em um mapa. 

Esse é um processo trabalhoso, para dizer o mínimo. Mas e se eu dissesse que é possível descobrir tudo isso em alguns segundos? Basta fazer algumas perguntas ao banco de dados do Wikidata. Para isso, você só precisará de algumas poucas linhas de código – e a melhor parte é que você não precisa escrevê-las sozinho.

Para isso, usaremos o Wikidata Query Service: uma ferramenta para se fazer perguntas ao banco de dados do Wikidata. Mas essas perguntas não podem ser feitas de qualquer jeito. Elas devem sempre seguir a forma de uma tripla de sujeito – predicado – objeto. Por exemplo:

  • Uma pessoa (sujeito) tem a profissão (predicado) de neurocientista (objeto).
  • Uma faculdade (sujeito) está localizada (predicado) em um país (objeto).

Para nosso problema em questão, queremos responder às seguintes perguntas: 

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]

Essa última linha parece estranha, não é mesmo? Na próxima postagem desta série, veremos o porquê disso, e continuaremos a montar o esqueleto de nossa query.