リーガルリスク
深層ウェブ
Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒される法的リスクがある。深層にあるものは必ずしも検索エンジンから検索されることを前提としていないものも多い。すべての深層データが検索エンジンから検索可能な状態になっていた場合、動的ページの情報提供者の存在意義を脅かす可能性もある。本来であれば非公開とされているようなデータが誤って検索されてしまうという可能性も高くなる。さらに、データベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン百度は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。
著作権との関係
検索エンジンは、その仕様上インターネット上のコンテンツを複製してキャッシュ (コンピュータシステム)|キャッシュとして保存するようになっている。このような仕様は、日本では、著作権法上、問題があるため、検索エンジンの仕様を合法とする海外(米国など)のサーバに置かれている。しかし、これでは日本人が検索している内容が米国に筒抜けとなってしまい、国益上好ましくないと考えられる。そのため遅ればせながら、経済産業省が日本国内でも検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表した。
[著作権法改正へ--検索事業者のデータ利用、著作権の許諾なしでも可能に - CNET Japan]