Некомерційний цифровий архів Internet Archive подолав історичну позначку — трильйон збережених веб-сторінок. За цим досягненням — майже три десятиліття безперервної роботи з архівування інтернет-контенту, повідомляє Popular Science.
Організацію засновано 1996 року з місією формувати «постійний літопис еволюції інтернету». Спеціалізовані пошукові роботи автоматично обходять загальнодоступні сайти, а користувачі завантажують матеріали самостійно — від рідкісних книг до аудіозаписів. Потреба в такій роботі очевидна — цифровий контент надзвичайно недовговічний і зникає, щойно хтось перестає його підтримувати.
Нині сховище налічує понад 866 млрд веб-сторінок і близько 41 млн текстових матеріалів. Щодня архів поповнюється приблизно на 500 млн сторінок, а загальний обсяг даних уже сягнув 100 тис. терабайтів.
Утім, проєкт має серйозну проблему. Великі медіакомпанії дедалі частіше закривають доступ до свіжих публікацій — вони побоюються, що матеріали використають для навчання генеративних систем штучного інтелекту (ШІ). Це суттєво ускладнює архівування сучасного вебу й загрожує збереженню цифрової спадщини.
Підписуйтесь на Mediasat у Telegram: тут найцікавіші новини ТБ та телекому
В Internet Archive, проте, дивляться в майбутнє з оптимізмом. Там сподіваються, що питання доступу до контенту врегулюється, а проєкт зможе іти вперед — назустріч другому трильйону збережених сторінок.
