Como classificamos mais de 800 mil logradouros brasileiros por gênero

Por Natália Mazotte e Álvaro Justen

O Brasil é um país de dimensões continentais. São 27 unidades federativas, 5570 municípios e mais de 800 mil logradouros identificados oficialmente pelos Correios. O que não chega a ser surpreendente é a dimensão da representatividade feminina nos nomes destes logradouros: apenas 20% de ruas, praças, avenidas e demais locais públicos que prestam homenagens a pessoas levam o nome de mulheres.

Mas como chegamos a esse número? A base de CEP dos Correios, que reúne os dados de logradouros do país, não é classificada por gênero. E esse é um desafio recorrente para nós, da Gênero e Número: como falar das assimetrias de gênero sob uma perspectiva mais científica, aportando evidências pro debate, contando com poucos dados desagregados por gênero? Muitas vezes precisamos estruturar nossas próprias bases ou recorrer aos super poderes da programação para classificar automaticamente bases existentes.

Para a reportagem em vídeo que publicamos nessa edição, criamos um dicionário de nomes para classificar os logradouros, a partir do banco de nomes do Censo Demográfico do IBGE.

O primeiro passo foi consolidar os logradouros únicos na base de dados de CEP dos Correios. A base original, obtida a partir do serviço “Qual o CEP?“, continha um total de 1.021.138 entradas. Dessas, consolidamos entradas repetidas e chegamos a 831.990 logradouros únicos em todo o país. Destes, 460.691 eram nomes que não se repetiam (pode haver Rua São Sebastião em mais de um município, por exemplo). Um algoritmo em Python ajudou no trabalho de extrair deles a primeira palavra do nome. Por exemplo, na “Rua Henri Ford”, o nome selecionado seria “Henri”. Consolidamos novamente a base, dessa vez para chegar aos primeiros nomes únicos. Chegamos ao resultado de 56.303 palavras, conjunto que teríamos que classificar por gênero.

Em alguns casos, como no da “Rua Dona Mariana”, a primeira palavra não é exatamente um nome próprio, mas é um título classificável por gênero, tal qual marechal, almirante, deputado, professor, professora. Termos que nos permitem identificar uma homenagem a uma figura masculina ou feminina. Separamos estes casos e criamos um dicionário de títulos também classificáveis por gênero.

A base de nomes únicos restante foi classificada a partir de requisições à base de dados de nomes do IBGE, que traz mais de 130 mil nomes distintos com a frequência e a probabilidade de serem atribuídos a homens e mulheres. Classificamos apenas os nomes com probabilidade igual ou superior a 95% de serem atribuídos a um único gênero. Casos como Edir, que tem 6.405 aparições como nome feminino e 6294 como masculino, foram desconsiderados.

Ao fim, as primeiras palavras únicas que nomeiam os logradouros brasileiros estavam classificadas como “femininas”, “masculinas” ou “not found”. O último se refere aos nomes que não encontraram equivalência no dicionário montado a partir dos dados do IBGE ou no dicionário de títulos. São casos como “Quadra A”, “Rua das Flores”, “Rua das Palmeiras”, entre outros.

Aplicamos a classificação à base original de logradouros únicos, com as cerca de 831 mil entradas. Identificamos 402.027 logradouros masculinos, 108.450 femininos e 321.513 em que o gênero não se aplica, segundo nossa classificação automatizada a partir dos dicionários.  O resultado do trabalho você vê neste vídeo. Os dados originais analisados estão disponíveis para download aqui. Nesta planilha você encontra dados agregados com a dimensão da desigualdade nas homenagens prestadas para homens e mulheres em logradouros por município e estado.

Se você encontrou algum erro no levantamento ou tem alguma crítica ou sugestão, envie pra gente no contato@generonumero.media.

*O título deste artigo foi editado para refletir o total de logradouros do país (cerca de 800 mil). Antes havíamos considerado o total de nomes de logradouros únicos, cerca de 400 mil.

Se você chegou até aqui, apoie nosso trabalho.

Você é fundamental para seguirmos com o nosso trabalho, produzindo o jornalismo urgente que fazemos, que revela, com análises, dados e contexto, as questões críticas das desigualdades de raça e de gênero no país.

Somos jornalistas, designers, cientistas de dados e pesquisadoras que produzem informação de qualidade para embasar discursos de mudança. São muitos padrões e estereótipos que precisam ser desnaturalizados.

A Gênero e Número é uma empresa social sem fins lucrativos que não coleta seus dados, não vende anúncio para garantir independência editorial e não atende a interesses de grandes empresas de mídia.

Quero apoiar ver mais