Mbabel para eleições brasileiras

  • Por Érica Azzellini

A ferramenta Mbabel também pode ser utilizada para gerar rascunhos estruturados de eleições estaduais e eleições municipais no Brasil. Verbetes sobre eleições tendem a ser muito semelhantes, uma vez devem indicar em quantos turnos se deu aquela eleição, para quais cargos os candidatos estavam concorrendo, quais candidatos foram eleitos e com quantos votos válidos, nulos e brancos, além do partido e das coligações dos candidatos etc. Também são verbetes que ficam mais completos com a inserção de tabelas com os dados dos resultados da eleição.

Com isso, a ferramenta Mbabel pode auxiliar o editor tanto na elaboração de texto quanto de outros recursos de visualização da informação compatíveis com a estrutura de um verbete da Wikipédia. A proposta é disponibilizar à comunidade de usuários uma ferramenta que gera automaticamente rascunhos de verbetes de eleições brasileiras já com tabelas dos resultados das eleições, a fim de reduzir trabalho manual e possíveis erros. Também é um exercício de exploração entre as potenciais integrações entre Wikipédia e Wikidata.

Diferente dos templates de museus, livros e filmes, por exemplo, os rascunhos estruturados de eleições requerem a coordenação de mais de um item Wikidata por vez. Nos próximos posts, vamos detalhar melhor os processos de estruturação de itens no Wikidata para a geração de textos automáticos na Wikipédia mais complexos e completos.

Anúncios

Wikidata Lab XIII: Restrições de informação estruturada

  • Por Érica Azzellini

A décima terceira edição do Wikidata Lab – treinamento técnico sobre o banco de dados semântico Wikidata – ocorreu dia 21/03, ministrada pelo wikimedista Mike Peel. No CEPID NeuroMat, tratamos de restrições de informação estruturada. No Wikidata, é importante atentar-se para as limitações no cadastramento de informações, a fim de cumprir adequadamente com a estrutura semântica do banco de dados. Aprendemos também sobre ferramentas que sinalizam itens com propriedades cadastradas inadequadamente, de forma a facilitar o trabalho de edição no Wikidata.

Os slides de Mike Peel estão disponíveis aqui.

Imagens por Sturm, em Creative Commons Attribution-Share Alike 4.0 International license.

NeuroMat Statement of Impact

O estudo do cérebro é provavelmente o tópico de pesquisa mais importante de nossos tempos. Uma evidência dessa afirmação foi a concomitante criação de diversas iniciativas relacionadas, incluindo o BRAIN Initiative (Estados Unidos, 2013), o Human Brain Project (Europa, 2013), o Brain/MINDS (Japão, 2014) e o China Brain (China, 2016). A decisão da FAPESP no ano de 2013 de criar o CEPID NeuroMat remete a esse contexto.

A característica que distingue o NeuroMat em comparação às iniciativas supracitadas é a ênfase no desenvolvimento de um novo quadro matemático para enfrentar os desafios levantados pela neurobiologia contemporânea. Isso vai ao encontro das críticas que Edvard Moser, psicólogo e neurocientista norueguês ganhador de um Prêmio Nobel, levantou contra o Human Brain Project, muita embora seja uma crítica que possa ser aplicada também às demais iniciativas:

As I understand it, tons of data will be put into a supercomputer and this will somehow lead to a global understanding of how the brain works, but to simulate the brain, or a part of the brain, one has to start with some hypothesis about how it works. Until we at least have some well-grounded theoretical framework, building a huge simulation is putting the cart before the horse“.

O objetivo do CEPID NeuroMat é o desenvolvimento desse quadro teórico ao qual Moser se refere e essa iniciativa pioneira coloca São Paulo na vanguarda da pesquisa mundial em neurociência.

Continue Lendo “NeuroMat Statement of Impact”

Três pilares para uma raspagem de dados web responsável

Por Renan Costa Laiz

A técnica de raspagem de dados de um website (web scraping) é um processo amplamente utilizado que consiste em obter informações de um website de maneira automatizada, sendo portanto, muito mais eficiente do que se a mesma tarefa fosse feita manualmente. No entanto, por mais que seja um processo amplamente utilizado, é necessário ter algumas precauções, uma vez que uma raspagem de dados irresponsável pode ter consequências tanto para quem faz a raspagem, quanto para o website que está sendo raspado.

I. Evite múltiplos acessos em um curto período de tempo. Quando estamos fazendo um web scraping, podemos querer acelerar ainda mais o processo fazendo diversas requisições a um servidor web. No entanto, o servidor que está sendo acessado pode pensar que está sofrendo um DDoS Attack (distributed denial of service attack), ou seja, pode pensar que está sofrendo um ataque que tem como objetivo derrubar o servidor pelo excesso de requisições. Com isso, o servidor em questão pode bloquear esse IP que está fazendo inúmeros acessos ou pode até mesmo acabar sendo derrubado por conta das requisições. Para evitar múltiplos acessos em um período curto de tempo, podemos utilizar ferramentas que aumentam ligeiramente o intervalo entre as requisições, como a função sleep do módulo Time no Python, que “para” o programa por um tempo determinado pelo programador.

II. Sempre dê o devido crédito pelas informações. Caso esteja fazendo uma raspagem de dados web de um site que criou ou reuniu informações que lhe interessam, dê o devido crédito explicitando-o como fonte dos dados extraídos.

III. Faça uso responsável do conteúdo extraído. Mais do que dar os devidos créditos a um site raspado, é importante saber lidar com o conteúdo extraído. Antes mesmo de extrair o conteúdo, procure saber como estão definidos os direitos autorais sob esse conteúdo, se necessário, converse diretamente com o mantenedor do website para maiores informações.

A raspagem de dados é uma técnica legal e tem diversas boas aplicações para justificar o seu uso. A raspagem de dados não deve nunca servir como justificativa para plágio ou para não dar os devidos créditos, quando necessário.

Jornalismo Computacional e narrativas estruturadas na Revista Texto Livre

  • Por Érica Azzellini

O artigo As potencialidades de narrativas estruturadas para o Jornalismo Computacional: Competências jornalísticas na elaboração de textos gerados com banco de dados foi publicado na Revista Texto Livre. A revista é uma publicação da Faculdade de Letras da Universidade Federal de Minas Gerais, dedicada a discussões e reflexões em torno de temáticas das Humanidades Digitais.  O texto publicado é fruto da pesquisa realizada no contexto de bolsa do programa Mídia Ciência da FAPESP no CEPID NeuroMat.

Resumo: 

Neste artigo, explora-se as competências digitais desenvolvidas por jornalistas no contexto informacional do Big Data que levantam a viabilidade de intersecção entre Ciências da Computação e Jornalismo. Nesse sentido, autores propõem diferentes entendimentos sobre o Jornalismo Computacional, campo hipotético no qual a prática jornalística agrega um direcionamento técnico, o que expande o horizonte de entendimento da relação do jornalista com a construção narrativa no ambiente de abundância de dados. Observa-se nesse cenário a emergência de experimentações com narrativas estruturadas, entendidas como textos verbais automatizados a partir de moldes pré-determinados que processam dados de bancos de dados estruturados. Com isso, o artigo reflete sobre os softwares de Natural Language Generation (NLG) na composição de notícias e apresenta resultados do desenvolvimento da ferramenta Mbabel para geração de rascunhos estruturados para verbetes temáticos na Wikipédia a partir do banco de dados Wikidata.

O artigo completo está disponível aqui.