Deletando linhas com NaN de um DataFrame Pandas | Como remover dados faltantes
Sumário
- Introdução
- Removendo linhas com valores NaN
- Removendo todas as linhas com valores NaN
- Removendo linhas com valores NaN em uma coluna específica
- Mantendo apenas linhas com um número mínimo de valores não NaN
- Conclusão
1. Introdução
Um problema comum ao lidar com conjuntos de dados é a presença de valores NaN, que indicam dados ausentes. Remover essas linhas com valores NaN é uma tarefa essencial para garantir a integridade e qualidade dos dados. Neste artigo, vamos explorar como remover linhas com valores NaN em um dataframe do pandas usando o Python.
2. Removendo linhas com valores NaN
2.1 Removendo todas as linhas com valores NaN
A primeira abordagem que podemos utilizar é remover todas as linhas que contenham pelo menos um valor NaN. Isso pode ser realizado usando a função dropna()
. Veja o código abaixo:
df.dropna(inplace=True)
Ao executar esse código, todas as linhas com pelo menos um valor NaN serão removidas do dataframe.
2.2 Removendo linhas com valores NaN em uma coluna específica
É possível também remover apenas as linhas que contêm valores NaN em uma coluna específica. Para isso, podemos utilizar a função dropna()
com o parâmetro subset
, especificando a coluna em que deseja-se buscar pelos valores NaN. Veja o exemplo abaixo:
df.dropna(subset=['coluna'], inplace=True)
Ao executar esse código, todas as linhas que contêm valores NaN na coluna especificada serão removidas do dataframe.
2.3 Mantendo apenas linhas com um número mínimo de valores não NaN
Em alguns casos, pode ser necessário manter apenas as linhas que possuem um número mínimo de valores não NaN. Para isso, podemos usar o parâmetro thresh
na função dropna()
. Veja o exemplo abaixo:
df.dropna(thresh=2, inplace=True)
Ao executar esse código, apenas as linhas que possuem pelo menos dois valores não NaN serão mantidas no dataframe.
3. Conclusão
Neste artigo, vimos diferentes maneiras de remover linhas com valores NaN em um dataframe do pandas. A remoção de valores NaN é importante para garantir a qualidade e integridade dos dados. É essencial compreender e aplicar essas técnicas ao trabalhar com conjuntos de dados no Python.
Para mais informações sobre o assunto, você pode visitar meu site statisticsglobe.com e conferir um tutorial mais detalhado sobre o tema. Fique à vontade para deixar suas dúvidas e comentários abaixo. Não se esqueça de se inscrever no meu canal do YouTube para ficar atualizado sobre novos vídeos.