Pattypan: como utilizar a ferramenta para carregamentos no Wikimedia Commons

Por Veronica Stocco

O Pattypan é um software de código aberto que permite o carregamento automatizado de arquivos ao Wikimedia Commons. Basta preencher uma planilha modelo, e o programa realiza todos os passos do processo – do upload, à conexão com o elemento Wikidata relacionado à mídia (se houver algum). Caso haja um QID relacionado à imagem, o Pattypan utilizará as informações disponíveis no Wikidata para preencher automaticamente a página de descrição da mídia no Commons.

Ao abrir o Pattypan, há uma opção para gerar uma planilha que deverá ser preenchida com as informações relevantes sobre as mídias que serão carregadas. O ideal é criar a planilha no diretório no qual as mídias que serão carregadas se encontram. Isso não é obrigatório, porém é um facilitador, já que o programa identifica por conta própria os arquivos válidos que se encontram naquele diretório, e incluirá o caminho para os mesmos na planilha.

Após isso, pode-se escolher o template desejado para o carregamento. Existem vários templates pré-definidos, como o Artwork, Photograph, entre outros. Cada um possui campos distintos, que podem ou não ser incluídos. Há também a opção de definir um valor fixo para aquele campo, extremamente útil quando todas as obras foram criadas pelo mesmo autor ou fotografadas pela mesma pessoa. 

Com isso em mãos, basta preencher as colunas da planilha criada. Caso as mídias a serem carregadas já possuam um QID, não se esqueça de incluí-lo. Desta forma, não será necessário preencher um grande número de colunas, pois as informações relevantes sobre o item serão retiradas do próprio Wikidata.

Depois disso, é hora de fazer a validação da planilha. Caso algo não esteja correto, o Pattypan mostrará um aviso. Quando tudo estiver pronto, basta prosseguir com o processo: fazer seu login no Commons, iniciar o carregamento e esperar que todas as imagens sejam adicionadas ao Commons.

Anúncios

Mapa de neurocientistas brasileiros [Parte III]

Por Veronica Stocco

Quais universidades os neurocientistas brasileiros frequentaram? Ao longo das postagens anteriores, entendemos a estrutura que as perguntas que precisamos fazer ao banco de dados do Wikidata devem ter para responder a essa questão. Em bom português, são elas:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]
  • A universidade [X] fica nas coordenadas [Y]

Lembrando que as perguntas com objeto entre colchetes são aquelas de resposta aberta, pois não queremos pré-estabelecer um valor que elas devam possuir. Ao invés disso, queremos saber como as pessoas que filtramos até aqui responderiam a essas perguntas. 

Com isso em mãos, podemos iniciar o processo de “tradução” para SPARQL. A primeira coisa que precisamos dizer para o banco de dados é quais os nomes que usaremos para nos referir às informações que queremos retirar dele:

Quero uma pessoa, uma universidade, uma coordenada, que se encaixa nesse padrão:

“Traduzindo” para SPARQL, temos:

SELECT ?pessoa ?universidade ?coordenadas WHERE:

Não fica tão diferente assim, não é mesmo? E agora chegamos à parte principal do nosso código. Lembra daquela questão das triplas de sujeito – predicado – objeto? É agora que ela vai quebrar um galho. Ela pode ser traduzida para SPARQL como:

?sujeito wdt:predicado wd:objeto

Vamos por partes. ?sujeito é o nome que definimos no início desta postagem. O predicado é a propriedade (valor numérico iniciado por P) no qual o objeto que queremos encontrar (QID) se encaixa. Tendo isso em mente, nosso primeiro parágrafo fica assim:

?pessoa wdt:P31  wd:Q5;

(instância de)  (ser humano)

wdt:P27  wd:Q155;

(país de cidadania)  (brasil)

     wdt:P106  wd:Q6337803;

(profissão)  (neurocientista)

wdt:P69  ?universidade.

(universidade frequentada)

Enquanto ainda temos perguntas a fazer sobre a pessoa, terminamos a linha com um ponto e vírgula. Após fazer a última, colocamos um ponto final. E a última pergunta ficou um pouco diferente, como não podia deixar de ser. Afinal, não queremos filtrar os resultados de uma faculdade específica. Queremos saber quais são as faculdades que esses cientistas frequentaram. É por isso que damos um nome a essa resposta. 

E agora é hora de fazer uma pergunta para as universidades que essas pessoas frequentaram. 

Da postagem anterior, tínhamos que:

A universidade [X] fica nas coordenadas [Y]

Traduzindo para SPARQL, teremos: 

?universidade wdt:P625 ?coordenadas.

}

Com apenas essas linhas, já conseguiríamos gerar o mapa que queremos! Entretanto, ao passar o mouse sobre cada ponto do mapa, não veríamos o nome da universidade que ele representa, ou do cientista que estudou ali. Ao invés disso, veríamos apenas o QID deles. Para mudar isso, o primeiro passo é especificar quais valores queremos “ajeitar”. Fazemos isso adicionando Label após seus nomes:

SELECT ?pessoaLabel ?pessoaDescription ?universidadeLabel ?coordenadas WHERE {

Os itens no Wikidata possuem nomes (labels) em várias línguas. Ao fim do código, vamos especificar que queremos receber os labels em português do Brasil ou inglês.

SERVICE wikibase:label { bd:serviceParam wikibase:language “pt-br, en”.

}

E pronto! Você pode testar query que estudamos neste link. É possível visualizar os resultados como uma tabela ou um mapa. O Wikidata Query Service oferece várias formas interessantes de visualizar os resultados. Há também um grande acervo de queries já prontas – e essa é uma excelente forma de começar a trabalhar com SPARQL. Não é preciso escrever algo do zero: basta procurar uma query que faça algo parecido com o que você quer fazer. Para criar o exercício estudado nesta série de posts, por exemplo, me baseei na query “Locations of national parks”.

Mapa de neurocientistas brasileiros [Parte II]

Por Veronica Stocco

Na postagem anterior, estávamos tentando descobrir quais universidade os neurocientistas brasileiros frequentaram. Para isso, formulamos as seguintes indagações para o banco de dados do Wikidata:

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]

A última pergunta tem um formato diferente das duas anteriores. Nas duas primeiras, só estamos interessados em uma resposta específica: pessoas que sejam brasileiras e neurocientistas, ponto. A resposta dessas perguntas nos ajuda a descartar opções nas quais não estamos interessados.

Porém, o intuito da última linha não é descartar opções. Depois de termos encontrado as pessoas que estamos buscando, podemos obter mais informações a respeito de cada uma delas. Temos um espaço em branco e queremos que o banco de dados o preencha para nós. No caso, queremos saber em qual universidade cada uma dessas pessoas se formou. 

Mas não basta saber a universidade. afinal, queremos um mapa. E, para isso, é necessário ter as coordenadas. Logo, precisamos fazer mais uma pergunta que termina com um espaço em branco: onde cada uma dessas universidades fica? Reescrevendo-a no formato de sujeito – predicado – objeto, temos:

A universidade [X] fica nas coordenadas [Y]

Temos uma lista bem definida e estruturada de perguntas que queremos fazer ao banco de dados. Na próxima postagem, veremos como traduzir essas perguntas para SPARQL.

Mapa de neurocientistas brasileiros [Parte I]

Por Veronica Stocco

Já parou para se perguntar quais universidades os neurocientistas brasileiros frequentaram?

Uma forma de abordar esse problema seria realizar uma série de pesquisas manuais – talvez pela Wikipedia. Após fazer uma série de buscas por artigos relacionados à neurociência, seríamos capazes de elaborar uma longa lista dos neurocientistas e selecionar aqueles que são brasileiros. Tendo esta lista final em mãos, poderíamos pesquisar qual foi a universidade que frequentaram e procurar as coordenadas dessas instituições para marcá-las em um mapa. 

Esse é um processo trabalhoso, para dizer o mínimo. Mas e se eu dissesse que é possível descobrir tudo isso em alguns segundos? Basta fazer algumas perguntas ao banco de dados do Wikidata. Para isso, você só precisará de algumas poucas linhas de código – e a melhor parte é que você não precisa escrevê-las sozinho.

Para isso, usaremos o Wikidata Query Service: uma ferramenta para se fazer perguntas ao banco de dados do Wikidata. Mas essas perguntas não podem ser feitas de qualquer jeito. Elas devem sempre seguir a forma de uma tripla de sujeito – predicado – objeto. Por exemplo:

  • Uma pessoa (sujeito) tem a profissão (predicado) de neurocientista (objeto).
  • Uma faculdade (sujeito) está localizada (predicado) em um país (objeto).

Para nosso problema em questão, queremos responder às seguintes perguntas: 

Quem são todas as pessoas (sujeitos) que têm:

  • cidadania brasileira?
  • profissão de neurocientista?
  • são formados por uma universidade [X]

Essa última linha parece estranha, não é mesmo? Na próxima postagem desta série, veremos o porquê disso, e continuaremos a montar o esqueleto de nossa query.

Wikidata Lab XV: Dados Lexicográficos

  • Por Érica Azzellini

Em 23/05, tivemos o Wikidata Lab XV no CEPID NeuroMat sobre dados lexicográficos. Convidamos Léa Lacroix, Project Manager Community Communication for Wikidata (WMDE) para ministrar a apresentação via hang outs. Foi o primeiro contato que muitos de nós tivemos com a inserção de dados lexicográficos no Wikidata.

No período da tarde, nos juntamos para criar entradas de lexemas em português no Wikidata.

Confira abaixo o vídeo da apresentação do Wikidata Lab XV na íntegra:

Mbabel: Eleições municipais

  • Por Érica Azzellini

Ao utilizar a ferramenta Mbabel para geração de rascunhos automáticos de verbetes na Wikipédia para eleições, é necessário atentar-se para as particularidades de eleições municipais e eleições estaduais. As diferenças entre esses dois tipos de eleições afetam a modelagem de itens no Wikidata.

narrativa estruturada de eleições municipais deve ser utilizada como suporte para a elaboração de verbetes de eleições na página de testes do editor. Ela gera automaticamente um rascunho de verbete que deverá conter informações, de acordo com dados disponíveis em seus respetivos itens estruturados no Wikidata, como data e local da eleição, número de eleitores aptos e de abstenções por turno, quantidade de votos válidos, votos nulos e votos em branco, candidatos, candidatos eleitos e seus respectivos vices (no caso de prefeitos), partidos e coligações. As seções sugeridas para esse tipo de verbete são: antecedentescampanha e análise. O rascunho estruturado de eleições municipais contém tabelas automáticas com os resultados da eleiçãointrodução estruturadainfocaixa automáticasugestões de seções, referênciasnavbox e categorias. Cabe ao usuário a devida revisão do rascunho em sua página de testes antes da publicação do verbete no domínio principal.

Recomenda-se o uso do Mbabel para a geração de rascunhos de verbetes de eleições em municípios brasileiros com mais de 100 mil habitantes. Vale ressaltar que as eleições municipais estão sujeitas a 2º turno em municípios com mais de 200 mil habitantes, de forma que é necessário verificar as diferenças possíveis na estruturação de dados no Wikidata entre eleições com apenas um turno ou com dois turnos. Nas eleições municipais, há a possibilidade de segundo turno para eleger os candidatos aos cargos de prefeito e vice-prefeito. O cargo de vereador é decidido por sistema proporcional, sem que haja um segundo turno.

Mbabel_Eleição_municipal_com_turno_único_estruturação_Wikidata
Modelo de estruturação de itens no Wikidata para eleição municipal de turno único. No exemplo, eleição municipal de Açailândia em 2016. Por Érica Azzellini, em CC-BY-SA-4.0
Mbabel_Eleição_municipal_com_dois_turnos_estruturação_Wikidata
Modelo de estruturação de itens no Wikidata para eleição municipal com dois turnos. No exemplo, eleição municipal de Volta Redonda em 2016. Por Érica Azzellini, em CC-BY-SA-4.0

Mbabel: como estruturar eleições brasileiras no Wikidata

  • Por Érica Azzellini

Wikidata é um banco de dados estruturado que opera a partir de entidades de itens e propriedades. Itens são marcados pela letra Q, seguida de sequência numérica única (Qid), enquanto que propriedades são marcadas pela letra P, também seguida de sequência numérica própria (Pid). Uma declaração no Wikidata consiste na elaboração semântica de um item a partir do arranjo de propriedades. Qualificadores também auxiliam na atribuição de sentido das declarações.

No Wikidata, as eleições foram organizadas basicamente em um item para a eleição geral e em outros itens ligados a esse com as informações específicas para a eleição de cada cargo, conforme os diagramas nas seções abaixo. Embora a ferramenta Mbabel para eleições brasileiras não faça uso necessariamente de todos os itens no botão para geração de rascunhos automáticos, é importante que todos os itens estejam cadastrados no Wikidata para que aqueles utilizados no botão da ferramenta estejam operando adequadamente, seguindo as normas de estruturação do Wikidata.

Tribunal Superior Eleitoral disponibiliza dados sobre eleições estaduais e municipais, que podem ser utilizados como fonte no preenchimento de itens no Wikidata.

Os itens que tratam da eleição geral, devem conter as seguintes propriedades cadastradas:

  • P31 instância de (eleição Q40231)
  • P17 país (Brasil Q155)
  • P1001 pertencente à jurisdição (Estado ou município correspondente)
  • P155 precedido por (eleição estadual/municipal anterior)
  • P156 seguido por (eleição estadual/municipal posterior, caso exista)
  • P585 data de ocorrência (ano da eleição)
  • P541 cargo disputado (governador, vice-governador, senador, deputado federal, deputado estadual ou prefeito, vice-prefeito, vereador)
  • P1867 eleitores aptos (quantidade)
  • P527 composto de (indicação de itens no Wikidata de 1º e de 2º turno, sem que haja necessidade de utilização quando possui turno único)

Já os itens que tratam da eleição por cargo, devem conter as seguintes propriedades cadastradas:

  • P31 instância de eleição (Q40231)
  • P361 parte de (eleições estaduais no Acre em 2014 – 1º turno)
  • P17 país Brasil (Q155)
  • P1001 pertencente à jurisdição (Estado ou município correspondente)
  • P585 data de ocorrência (dia, mês e ano)
  • P541 cargo disputado (apenas um cargo: ou senador, ou deputado federal, ou deputado estadual etc.)
  • P991 candidatos eleitos (nome do candidato eleito, com número de votos recebidos, partido e coligação política como qualificadores)
  • P726 candidatos (nome do candidato, com votos recebidos, partido e coligação política como qualificadores)
  • P1867 eleitores aptos (quantidade)
  • P5043 número de abstenções (quantidade)
  • P5044 número de votos nulos (quantidade)
  • P1697 número total de votos válidos (quantidade)
  • P5045 número de votos em branco (quantidade)

Os itens são arranjados entre si a partir da utilização de propriedades como “composto de” (P527), “parte de” (P361), “seguido por” (P156) e “precedido por” (P155). Por exemplo, a Eleição municipal de Açailândia em 2016 (Q61870782) é composta pelos itens Eleição municipal de Açailândia em 2016 para Prefeito (Q61868798) e Eleição municipal de Açailândia em 2016 para Vereador (Q61868593). Da mesma forma, tanto o item sobre a eleição para o cargo de prefeito em Açailândia quanto o item sobre a eleição para o cargo de vereador no município possuem a propriedade “parte de” (P361), que os conecta ao item da eleição geral Q61870782.

Nas eleições em que há segundo turno, é necessário que cada turno tenha um item geral no Wikidata. Tais itens devem ser conectados com itens específicos para a eleição do cargo sujeito à segundo turno. No caso de eleições estaduais, há segundo turno para eleger governadores e seus respectivos vices. Com isso, o item geral do primeiro turno deve como valor na propriedade “instância de“(P31) “turno de votação”, com o qualificador “ordem na série – 1” e na propriedade “cargo disputado” (P541) todos os cargos da eleição: governador, vice-governador, senador, deputado federal e deputado estadual como valores. Já no item geral do segundo turno, deve constar como valor na propriedade “instância de “(P31) “turno de votação”, com o qualificador “ordem na série – 2” e na propriedade “cargo disputado” (P541) apenas os cargos de governador e de vice-governador como valor. A propriedade “data de ocorrência” (P585) deve constar em ambos os itens, sendo preenchida com dia, mês e ano. Já a mesma propriedade no item geral da eleição deve ser preenchido apenas com o ano no caso de eleições com dois turnos.