Existem numerosas páginas na internet, que incluem desde fóruns e redes sociais até plataformas de compras e bibliotecas digitais. No entanto, a permanência dessas páginas não é garantida, como exemplificado pelo “erro 404”. Uma pesquisa recente indica que quase 40% de todo o conteúdo que já esteve disponível na internet não existe mais — até pelo menos o final de 2023. Isso significa que esse material não pode mais ser acessado através dos canais oficiais. De acordo com dados do Pew Research Center, cerca de 38% do conteúdo online existente entre 2013 e 2023 não está mais acessível. Ao tentar acessar um desses links, o usuário se depara com a mensagem clássica de erro 404, que sinaliza que o servidor não conseguiu localizar a página desejada, seja porque ela foi removida, alterada sem redirecionamento ou o link tornou-se obsoleto.
Apesar da internet estar constantemente disponível, muitas pessoas tendem a acreditar que todas as informações estarão acessíveis indefinidamente. Contudo, a pesquisa revela que até mesmo páginas recentes estão desaparecendo, com aproximadamente 8% dos sites ativos em 2023 já não estando mais disponíveis. O fenômeno do erro 404 tem se intensificado. A investigação do Pew Research Center abrangeu uma amostra de quase um milhão de páginas registradas pela organização Common Crawl. Os pesquisadores identificaram que a perda não se restringe a páginas aleatórias; links de sites governamentais, importantes portais de notícias e a Wikipédia também apresentam uma quantidade significativa de links que resultam em erro 404.
Conforme observado por Mark Graham, diretor do projeto que catalogua sites na web, as perdas digitais podem ser mais catastróficas do que as físicas. Embora a destruição de uma biblioteca física seja uma tragédia, muitos livros podem sobreviver em outros locais. No entanto, no meio digital, a fragilidade e a efemeridade dos dados são preocupações evidentes. Apesar de muitas dessas páginas não estarem mais acessíveis em seus sites de origem, cerca de dois terços dos 38% de conteúdos da web desaparecidos na última década ainda podem ser encontrados na Wayback Machine. O projeto arquiva mais de um bilhão de URLs diariamente, incluindo alguns vídeos do YouTube.
Entretanto, a Wayback Machine e outros projetos similares enfrentam desafios em catalogar todos os conteúdos disponíveis, já que alguns sites impõem barreiras, como paywalls e bloqueadores que dificultam a atuação de robôs rastreadores. O paywall é um modelo de monetização que restringe o acesso a conteúdos, permitindo visualizações apenas para assinantes da plataforma. Dados coletados pelo Pew Research Center indicam que entre 2013 e 2023, aproximadamente 23% dos sites de notícias apresentaram pelo menos um link resultante em erro 404. Na Wikipédia, essa porcentagem é ainda mais alarmante, com 54% das páginas contendo pelo menos um link de referência que não está mais disponível.
Especialistas alertam para uma situação que pode ser ainda mais grave: uma grande parte dos dados armazenados na internet está sob o controle de grandes corporações, como o Google, o que dificulta a preservação da informação. Marlene Manoff, estrategista sênior de coleção nas Bibliotecas do MIT, observa que essa realidade levanta questões sobre a conservação do histórico digital, uma vez que essas empresas podem não priorizar a preservação do conteúdo digital. Estrategicamente, a preservação de um objeto digital em sua forma original é difícil; em relação à propriedade corporativa, essa probabilidade diminui consideravelmente.
Embora a Wayback Machine, que pertence ao Internet Archive, e o Common Crawl estejam catalogando bilhões de páginas online, é relevante destacar que o Common Crawl coleta dados apenas para fins de pesquisa e análise, enquanto o Internet Archive se dedica a preservar conteúdos para acesso futuro. Assim, mesmo que essas iniciativas não sejam capazes de documentar todo o histórico da web, uma parte significativa dos links ainda estará acessível para consulta.