很多隐藏在互联网深处的隐形网页是什么?为什么Google搜索不到Deep Web?

为什么Google搜索不到deep web?

互联网中只有4%-20%的页面是可见的,96%的页面隐藏在深处。这一点在《深网和暗网的区别是什么》中有提到。其实最主要的原因是Google等搜索引擎在搜索一个网页时,会在没有这个文件的情况下检查第一个名为robots.txt的文件,也就是说在没有密码保护的情况下只能索引这个网页中的信息。

1、Pipl

Pipl设置的Robots文件可以与许多deep web数据库进行交互,因此它可以索引出版物、法庭记录和个人数据等深层资源。

2、我的生活

我的生活中大约有2.25亿个公共页面,里面包含了大量的个人信息,比如邮箱地址、家庭信息、电话号码、家庭住址等等。连你住过的地方都能找到,还有18以上的美国公民信息。

Yippy主要使用其他搜索引擎来获取结果信息,但特别的是,它不会留下任何网页浏览记录,包括查看邮件或合同条款。

Surfwax

Surfwax还有很多其他功能,不是简单的直接搜索。其中,焦点词功能可以独立设置搜索范围,识别其他相关内容,显示检索所需时间,从而更恰当地提供最佳搜索结果。

5、老爷机

这是一个互联网档案馆的前端,里面有100T的信息,只能通过URL访问。但回路机允许大众上传数据,但大部分数据都是爬虫检索的,包括6543.8+050亿条抓取信息。

6、谷歌学术

这是一个允许访问学术文件、出版物和其他学术资料的网页。可以通过关键词搜索,也可以自己配备Google Academic,直接搜索时可以自动访问期刊和数据库。