A limpeza de dados, data cleansing, é uma tarefa importante que pode ser complexa e demorada, no entanto é
um investimento fundamental que pode melhorar a qualidade e a utilidade dos dados para futuras análises.
Seja um conjunto de dados com informações de saúde
referentes a uma população. Pode-se limpar esses dados
para identificar e tratar valores extremos, discrepantes,
contraditórios ou inválidos. Com isso, há maior confiabilidade para estimar a prevalência, a incidência, a mortalidade e os fatores de risco de uma doença naquela população representada por aqueles dados.
Por exemplo, seja o conjunto de dados abaixo referente a
uma amostra de 5 indivíduos em uma mesma cidade, na
qual um analista percebeu a necessidade de limpeza de
dados por conta de potenciais inconsistências.