サードパーティ

はじめに
ウェブサイト開発者は、広告、アナリティクス、ソーシャルメディア連携、決済処理、コンテンツ配信などの機能を実装するためにサードパーティを利用できます。ウェブページは通常、ファーストパーティと様々なサードパーティによって提供されるリソースで構成されています。サードパーティを利用してウェブページを構築することで、モジュール化された開発が可能になり、豊富な機能を効率的かつ迅速に展開できますが、プライバシー、セキュリティ、パフォーマンスの問題を引き起こす可能性もあります。
この章では、ウェブでのサードパーティの利用実態を明らかにするための実証分析を行います。ほぼすべてのウェブサイトが1つ以上のサードパーティを含んでいることがわかりました。これらのサードパーティによって提供されるリソースの種類(画像、JavaScript、フォントなど)の内訳を提供します。また、ウェブ上のサードパーティの異なるカテゴリ(広告、アナリティクス、CDN、動画、タグマネージャーなど)の内訳も提供します。さらに、異なるサードパーティがウェブページにどのように含まれているか(直接的または間接的)の内訳も提供します。
定義
分析を始める前に、この章で扱う内容の共通の定義を確認しておくと役立ちます。
サイトとページ
この章では、サイトという用語を使用して、特定のドメインの登録可能な部分(しばしば extended Top Level Domain plus one (eTLD+1) と呼ばれる)を表します。たとえば、URL https://www.bar.com/
の場合、eTLD+1は bar.com
であり、URL https://foo.co.uk
の場合、eTLD+1は foo.co.uk
です。ページ(またはウェブページ)とは、一意のURL、より具体的には特定のURLにあるドキュメント(たとえばHTMLやJavaScript)を指します。
サードパーティとは?
この章と以前の版との比較を可能にするため、以前のWeb Almanacで使用されたサードパーティの定義に従います。
サードパーティとは、サイト所有者(ファーストパーティ)とは異なるエンティティです。サイト所有者が直接実装・提供していないサイトの側面を含みます。より正確には、サードパーティコンテンツは、ユーザーが最初に訪問したサイトではなく、別のサイト(つまりサードパーティ)から読み込まれます。ユーザーが example.com
(ファーストパーティ)を訪問し、example.com
が awesome-cats.edu
から面白い猫の画像を含めている(たとえば <img>
タグを使用)とします。このシナリオでは、awesome-cats.edu
はサードパーティです。なぜなら、ユーザーが最初に訪問したのはそこではないからです。しかし、ユーザーが直接 awesome-cats.edu
を訪問した場合、awesome-cats.edu
はファーストパーティとなります。
定義に合わせるため、HTTP Archiveデータセットで少なくとも50のユニークなページでリソースが見つかるドメインからのサードパーティのみを含めました。サードパーティコンテンツがファーストパーティドメインから直接提供される場合、それはファーストパーティコンテンツとしてカウントされます。たとえば、セルフホスティングされたCSSやフォントはファーストパーティコンテンツとしてカウントされます。同様に、サードパーティドメインから提供されるファーストパーティコンテンツは、サードパーティコンテンツとしてカウントされます(「50ページ以上の基準」を満たす場合)。一部のサードパーティは異なるサブドメインからコンテンツを提供します。しかし、サブドメインの数に関係なく、それらは単一のサードパーティとしてカウントされます。さらに、サードパーティがファーストパーティとして偽装されることがますます一般的になっています。たとえば、CNAME cloakingのような技術を通じてです。この分析では、それらをファーストパーティとして扱います。したがって、私たちの結果は、ウェブ上のサードパーティの普及率の下限を示しています。
カテゴリ
前述のように、サードパーティは様々な用途に使用できます。たとえば、動画を含めるため、広告を提供するため、またはソーシャルメディアサイトからのコンテンツを含めるためなどです。データセットで観察されたサードパーティを分類するために、Patrick Hulceのthird-party Webリポジトリを参照しています。このリポジトリは、サードパーティを以下のカテゴリに分類しています:
- 広告(Ad): これらのスクリプトは広告ネットワークの一部で、広告の提供または測定を行います。
- アナリティクス(Analytics): これらのスクリプトはユーザーとその行動を測定または追跡します。追跡される内容によって、影響の範囲は広くなります。
- CDN: これらは、異なるパブリックCDNで提供される公開ホストされたオープンソースライブラリ(たとえばjQuery)とプライベートCDNの使用の混合です。
- コンテンツ(Content): これらのスクリプトはコンテンツプロバイダーまたは出版固有のアフィリエイトトラッキングからのものです。
- カスタマーサクセス(Customer Success): これらのスクリプトは、チャットやコンタクトソリューションを提供するカスタマーサポート/マーケティングプロバイダーからのものです。これらのスクリプトは一般的に重いです。
- ホスティング(Hosting)*: これらのスクリプトはウェブホスティングプラットフォーム(WordPress、Wix、Squarespaceなど)からのものです。
- マーケティング(Marketing): これらのスクリプトはポップアップ/ニュースレターなどを追加するマーケティングツールからのものです。
- ソーシャル(Social): これらのスクリプトはソーシャル機能を有効にします。
- タグマネージャー(Tag Manager): これらのスクリプトは多くの他のスクリプトを読み込み、多くのタスクを開始する傾向があります。
- ユーティリティ(Utility): これらのスクリプトは開発者ユーティリティ(APIクライアント、サイトモニタリング、不正検出など)です。
- 動画(Video): これらのスクリプトは動画プレーヤーとストリーミング機能を有効にします。
- 同意プロバイダー(Consent provider): これらのスクリプトはサイトがユーザーの同意を管理することを可能にします(たとえば一般データ保護規則の遵守のため)。これらは「Cookie同意」ポップアップとしても知られており、通常はクリティカルパスで読み込まれます。
- その他(Other): これらは共有オリジンを通じて配信される雑多なスクリプトで、正確なカテゴリや帰属がありません。
Content Type
サードパーティリソースのタイプを決定するために、Content-Type
HTTPヘッダーを使用します。Content-Typeの値には、text/javascript
またはapplication/javascript
(スクリプト用)、text/html
(HTMLコンテンツ用)、application/json
(JSONデータ用)、text/plain
(プレーンテキスト用)、image/png
(PNG画像用)、image/jpeg
(JPEG画像用)、image/gif
(GIF画像用)などが含まれます。
普及率
低ランクのウェブサイトでは、1つ以上のサードパーティを使用しているページの割合がわずかに減少しています。2021年と2022年と同様に、1つ以上のサードパーティを含むページの割合は92%と高いままです。
低ランクのウェブサイトでは、サードパーティの数がかなり減少していることがわかります。トップ1000のウェブサイトではサードパーティの中央値が66、トップ100万のウェブサイトでは27です。デスクトップのサードパーティ数はモバイルページよりも多くなっています。デスクトップとモバイルの差は、より上位のウェブサイトで大きくなっています。
サードパーティリクエストの数は、上位のウェブサイトの方が下位のウェブサイトよりも多いことがわかります。リクエストを見ると、上位と下位のウェブサイトの差は、図2のサードパーティの数を見る場合ほど偏っていません。
不明なものを除くと、トップカテゴリには同意プロバイダー、動画、カスタマーサクセスが含まれています。もっとも人気のある同意プロバイダードメインは fundingchoicesmessages.google.com
、もっとも人気のある動画ドメインは www.youtube.com
、もっとも人気のあるカスタマーサクセスドメインは embed.tawk.to
です。
script
(30.5%)、image
(26.0%)、html
(11.7%)です。トップ3のタイプには script
、image
、other
が含まれています。これらのコンテンツタイプで最も人気のあるドメインは fonts.googleapis.com
です。
トップ10のサードパーティドメインには、googleapis.com
、googletagmanager.com
、google-analytics.com
、google.com
、youtube.com
など、Googleが所有する複数のドメインが含まれています。Metaの facebook.com
はトップ5の中で唯一の非Googleドメインです。
包含
先ほどの例を思い出してください。example.com
(ファーストパーティ)が <img>
タグを使用して awesome-cats.edu
(サードパーティ)から画像を含めることができます。この画像の包含は直接的な包含と見なされます。しかし、画像がサイト上のサードパーティスクリプトによって XMLHttpRequest
を通じて読み込まれた場合、画像の包含は間接的な包含と見なされます。間接的に含まれるサードパーティは、さらに追加のサードパーティを含めることができます。たとえば、サイトに直接含まれるサードパーティスクリプトが、さらに別のサードパーティスクリプトを含めることができます。
このようなページ上のサードパーティの間接的な包含は、サードパーティ包含チェーンとして表現できます。包含チェーンは、特定のリクエストを引き起こしたものを特定するイニシエーター情報を使用して構築できます。包含チェーンでは、サードパーティのeTLD+1をノード識別子として使用します。包含チェーンには、同じ企業が運営する複数のドメイン(たとえば:example.com
→ googletagmanager.com
→ google-analytics.com
→ doubleclick.net
)や異なる企業(たとえば:example.com
→ googletagmanager.com
→ facebook.com
)が含まれる場合があります。
包含チェーンの中央値の深さは3です。包含チェーンの4%が長さ > 1で、これはページ上で少なくとも1つのサードパーティを間接的に含んでいることを意味します。とくに、包含チェーンの14%が長さ > 5です。もっとも深い包含チェーンの長さは2,930です。
すべてのカテゴリで、デスクトップページはモバイルページよりも長い包含チェーンを持っています。異なるウェブサイトカテゴリ間で大きな違いが観察されます。もっとも長い包含チェーンを持つウェブサイトカテゴリは /Games
です。
トップサードパーティドメインの1つである googletagmanager.com
に注目してみましょう。これには googleapis.com
、google-analytics.com
、google.com
、gstatic.com
、youtube.com
、googlesyndication.com
、googleadservices.com
など、多くのGoogleドメインが含まれています。googletagmanager.com
に含まれるトップ10のサードパーティドメインのうち、非Googleドメインは3つだけで、Metaの facebook.com
と facebook.net
、そしてShopifyの shopify.com
です。
結論
私たちの調査結果は、ウェブ上のサードパーティの遍在性と複雑な性質を示しています。ウェブでのサードパーティの使用は、これまで以上に一般的になっていることがわかりました。10ページ中9ページ以上が1つ以上のサードパーティを含んでおり、多くの場合間接的に含まれています。
サードパーティは、ファーストパーティによって直接含まれていないことが多いことがわかりました。すべてのウェブページ上のサードパーティの約3分の1が、広告、アナリティクス、同意管理に使用されています。Googleはウェブ上で最も人気のあるサードパーティであり、トップ10のサードパーティドメインのうち5つがGoogleドメインです:googleapis.com
、googletagmanager.com
、google.com
、google-analytics.com
、youtube.com
。
サードパーティの包含は、ウェブ開発者が考慮すべきプライバシー、セキュリティ、パフォーマンスへの影響をもたらします。