Новое исследование Pew Research Center вскрывает масштабную проблему цифрового распада в интернете. Анализ показал, что около 40% веб-страниц, созданных в 2013 году, уже недоступны из-за искажения, устаревания или полного исчезновения цифровых данных.
Ученые использовали случайную выборку из 1 миллиона веб-страниц из архивов Common Crawl за период с 2013 по 2023 год. Оказалось, что к концу 2023 года почти 40% страниц, актуальных в 2013 году, были утрачены. Даже среди снимков 2021 года удалено около 20% контента.
«Мы привыкли считать интернет надежным хранилищем информации, но это иллюзия. Веб-страницы подвержены цифровому распаду», – комментируют эксперты.
Подписывайтесь на Mediasat в Telegram: здесь самые интересные новости из мира технологий
Наиболее уязвимым оказался контент социальных сетей. 18% сообщений в Твиттере (ныне X) исчезли из-за блокировки или удаления учетных записей. Часто пропадают твиты на турецком (40%) и арабском языках – они недоступны уже через 3 месяца после публикации.
Цифровой распад затрагивает и материалы Википедии: 11% внешних ссылок на ее страницах ведут в никуда. Каждая пятая правительственная веб-страница содержит нерабочие ссылки, больше всего их на сайтах муниципалитетов. Около 5% ссылок на новостных сайтах не работают.
Исследователи предупреждают, что недолговечность информации в сети может сказываться на сохранности исторических данных и достоверности научных публикаций. Эксперты призывают срочно решать проблему цифрового распада в интернете.