Internet Archive(也叫“网站时光倒流机器”Wayback Machine),他会定期收录并永久保存全球网站上可以抓取的信息。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。

最近,Internet Archive 发布了一个消息,成千上百的Internet Archive 支持者,志愿者和工作人员正在庆祝该网站已经收集了超过10,000,000,000,000,000字节的互联网页面数据。作为非盈利的数字图书馆,该组织已经保存了超过10PB的数据量。1PB = 1024TB,1TB = 1024GB。做个比较,全球第四大软件公司,赛门铁克数据中心为客户存储的数据已达到56PB。

Internet Archive 说,这样做的原因是它希望别人能从它收集积累的所有信息中学习。它从去年开始抓取了大约27亿的URI,抓取内容不仅包括文本,还有图片,Flash,视频等数据。

Internet Archive

这里是一些技术细节:
抓取开始日期:2011年3月9日
抓取结束日期:2011年12月23日
捕获的数量:2713676341
URL数量:2273840159
主机数量:29032069

当然不可能把全世界所有的网站数据都抓取过来,它是选取了当时Alexa排名在前100万的网站。如果你想要访问这些抓取的数据,你可以联系 info[at]archive[dot]org。但他们不能保证给你权限访问,不过你可以申请并注明你访问这些数据的理由。