Изменения

5815 байт добавлено ,  4 года назад
нет описания правки
Строка 91: Строка 91:  
|accessdate=2021-06-05}}
 
|accessdate=2021-06-05}}
 
</ref>.
 
</ref>.
 +
 +
== Принцип работы ==
 +
Платформа Wayback Machine функционирует за счёт двух основных элементов — поисковых роботов (или ''веб-краулеров'') и интерфейса. Веб-краулеры занимаются посещением, извлечением, загрузкой и архивацией веб-страниц. В свою очередь, через интерфейс пользователи получают доступ к онлайн-коллекциям{{sfn|Lerner|2017|с=1741—1755}}.
 +
 +
Изначально коллекция архива пополнялась за счёт браузерного [[плагин]]а от Alexa Internet, который автоматически фиксировал и сохранял каждую веб-страницу по мере её посещения, затем передавая всю собранную информацию в Архив Интернета. Пользователи также могли установить бесплатную панель инструментов, позволявшую проверять статус архивирования выбранного веб-сайта<ref name=Forbes/>.
 +
 +
В 2002 году Архив запустил собственный [[поисковой робот]] — {{iw|Heritrix|||}} с открытым исходным кодом.  Коды краулеров записаны с помощью комбинации [[Си (язык программирования)|программных языков Cи]] и [[Perl]]. Помимо этого, Архив Интернета также принимает данные сканирования от других доноров{{sfn|Odgen|2017}}. Отсканированные копии веб-сайтов автоматически конвертируются в файлы размером около 100 МБ, которые затем сохраняются на серверах. Общая скорость пополнения архива составляет около 10 [[терабайт]] в месяц<ref name=Kahle>{{cite web
 +
|url=https://www.xml.com/pub/a/ws/2002/01/18/brewster.html
 +
|title=How the Wayback Machine Works
 +
|author=Richard Koman
 +
|date=2002-01-21
 +
|publisher=Xml.com
 +
|accessdate=2021-06-05}}
 +
</ref>.
 +
 +
Веб-краулеры запечатляют версию сайта такой, какой она была сохранена на момент доступа к ней через URL. Роботы регулярно сканируют большое количество веб-страниц, рекурсивно загружая, анализируя и отображая [[HTML]], [[JavaScript]] и [[CSS]] страницы{{sfn|Lerner|2017|с=1741—1755}}. Механизм работы краулеров похож на работу поисковых систем — роботы самостоятельно ищут порталы для архивирования через систему поиска путей, сканируя страницы и связанные с ними сайты, таким образом формируя сеть порталов. На момент создания Архива, всемирная сеть была настолько маленькой, что веб-краулеры могли совершить обход всех сайтов за один сеанс. Однако со временем постоянный рост онлайн-порталов и их изменчивость сделали полный обход всей сети практически невозможным. Таким образом, не все изменения на сайтах зафиксированы в Wayback Machine{{sfn|Price|2011}}. Руководство Архива не уточняет то, как роботы находят и выбирают страницы для сканирования, однако заявляет, что чаще всего краулеры направляются на те сайты, которые имеют перекрёстные ссылки с других порталов и находятся в открытом доступе. Сканер начинает с веб-страницы, а затем следует по каждой гиперссылке на этой веб-странице, чтобы перейти на новые сайты. На каждой из новых веб-страниц поисковый робот повторяет процесс{{sfn|Bowyer|2021|с=43—57}}. Он будет продолжаться до того момента, пока архивация не будет остановлена или не достигнет установленного скриптом лимита<ref>{{cite web
 +
|url=https://archive.org/details/widecrawl&tab=about
 +
|title=Worldwide Web Crawls
 +
|author=A. Rossi
 +
|date=2010-10-05
 +
|publisher=Internet Archive
 +
|accessdate=2021-06-05}}
 +
</ref>. Помимо этого, каждый пользователь может использовать специальную форму на портале и вызвать краулер, который сохранит страницу в текущем состоянии{{sfn|Lerner|2017|с=1741—1755}}. Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищённому паролем или расположенному на частном сервере<ref name=McKinnon/>{{sfn|Bowyer|2021|с=43—57}}<ref name=Bryant/>.
    
== Примечания ==
 
== Примечания ==
Анонимный участник