Como analisamos os dados do TSE para esta edição

por Gênero e Número

A cada eleição uma fonte riquíssima de dados se atualiza: o repositório do Tribunal Superior Eleitoral, que guarda informações sobre as candidaturas, os resultados dos pleitos, o eleitorado e as prestações de contas. Dessa fonte de informação é possível extrair um retrato do sistema político brasileiro e de como ele se reflete na esfera social, inclusive com recortes como o feito nesta edição pela Gênero e Número, que focou na participação das mulheres na política.

Contudo, a riqueza da base é inversamente proporcional à facilidade de trabalhá-la. A quantidade massiva de dados não é disponibilizada em uma interface que possibilite consultas mais específicas, o que os programadores chamariam de API (Application Programming Interface ou, em português, Interface de Programação de Aplicativos). Se quisermos, por exemplo, consultar quantos candidatos e candidatas as capitais do país tiveram em 2012, não podemos especificar a nossa busca para as bases de dados.

Então o trabalho inicial é mesmo baixar e descompactar as pastas do repositório do TSE, com dezenas de arquivos CSV divididos por estado, a maioria deles com um número de linhas maior do que o que os nossos softwares de planilha comuns (Google Spreadsheet, Libre Office, Excel) são capazes de processar.

Seguimos para a etapa de entender os campos da nossa base. Os arquivos não vêm com cabeçalho, e esses campos variam ano a ano. Há um dicionário de dados que explica brevemente cada campo, mas de forma insuficiente. Não encontramos, por exemplo, os valores possíveis para as principais colunas e o que significa cada um deles. Se quisermos verificar os candidatos eleitos na base de candidaturas, por quais valores devo filtrar? Há diferentes formas de descrever o status de “eleito”, e a única forma de tirar essas dúvidas é consultando os estatísticos ou responsáveis pelas bases do próprio TSE.

A falta de cuidado com o formato dos dados – por exemplo, trazer aspas em nomes de candidatos, um caractere que em arquivos CSV é interpretado como delimitador de campos – adiciona uma camada extra de esforço e conferências para validar as colunas. É preciso olhar com cuidado algumas inconsistências, e só a partir de 2000 os dados ficam um pouco mais confiáveis. Optamos por trabalhar nesse recorte. São praticamente 16 anos de história, com seus avanços e retrocessos legislativos e sociais, o que torna a análise ainda mais interessante.

A partir de um script construído em Python (uma linguagem de programação), consolidamos todos os anos, normalizando as colunas. Foi também com programação que obtivemos os principais recortes que deram origem às bases trabalhadas e disponibilizadas nessa edição.

Além dos dados do TSE, foram consultados dados da composição dos Tribunais Superiores, da Câmara dos Deputados e do Senado Federal. Para entender qual dos três poderes teve a menor participação de mulheres nos últimos 16 anos, a comparação foi feita com base nos cargos mais altos em cada um deles. No Judiciário, vimos a composição das cortes superiores. No Executivo, as lideranças dos Ministérios. No Legislativo, os deputados e senadores. Cada pessoa a ocupar esses espaços nos últimos 16 anos, seja para um mandato fixo ou permanência indeterminada, entrou no cálculo.

Ainda há muitos dados a serem explorados sobre o tema das mulheres na política. Qual o perfil das mulheres que se candidatam? E das que se elegem? Como os partidos distribuem os recursos partidários entre candidatos e candidatas? Quantas mulheres e homens apresentaram votações insignificantes nos últimos pleitos e o que isso nos diz da eficiência das cotas para candidaturas? Os dados estão no mundo, e se fossem disponibilizados de maneira mais simples, essas perguntas poderiam ser respondidas de maneira mais rápida. Mas o tema das mulheres na política não se esgota nessa edição. Fica o convite para que você consulte os dados que embasaram nossas análises e faça as suas próprias.

Se você encontrou algum erro no levantamento ou tem alguma crítica ou sugestão, entre em contato com a gente (contato@generonumero.media)!

Dados abertos:

Links úteis:

Gênero e Número

A Gênero e Número é uma empresa social que produz e distribui jornalismo orientado por dados e análises sobre questões urgentes de gênero e raça, visando qualificar debates rumo à equidade. A partir de linguagem gráfica, conteúdo audiovisual, pesquisas, relatórios e reportagens multimídia alcançamos e informamos uma audiência interessada no assunto.

Se você chegou até aqui, apoie nosso trabalho.

Você é fundamental para seguirmos com o nosso trabalho, produzindo o jornalismo urgente que fazemos, que revela, com análises, dados e contexto, as questões críticas das desigualdades de raça e de gênero no país.


Somos jornalistas, designers, cientistas de dados e pesquisadoras que produzem informação de qualidade para embasar discursos de mudança. São muitos padrões e estereótipos que precisam ser desnaturalizados.

A Gênero e Número é uma empresa social sem fins lucrativos que não coleta seus dados, não vende anúncio para garantir independência editorial e não atende a interesses de grandes empresas de mídia.

Quero apoiar ver mais