「クローリング課金」問題の概要

Do not feed the trolls

この記事は Creative Commons が2025年11月に公開した PDF 文書 Pay-To-Crawl Issue Brief を試みに翻訳したものです。 原文は Jack Hardinges 氏により CC-BY   4.0 ライセンス下で公開されています。

翻訳に際して GitHub Copilot (model: GPT-5 mini) および Kagi Transrate の助けを多く借りています。 なお,翻訳に関する間違いは全て翻訳者である Spiegel に帰します。 もし間違いがあればフィードバックして頂けると助かります。

では,本編をどうぞ。


クローリング課金(Pay‑To‑Crawl)

Creative Commons Issue Brief: AI とコモンズに関連するトピックの背景説明

2025年11月

はじめに

機械(machine)によるデジタルコンテンツへのアクセス自体は全く新しいものではありませんが,大規模な人工知能(AI)モデルが許可や帰属の明記,対価の支払いなしに膨大な量のコンテンツにアクセスすることで生じる混乱に対応するため,クローリング課金(pay-to-crawl)システムが登場しました。

クローリング課金システムは,ウェブサイト(website)のホスティング費用の増加, AI 検索によるトラフィックと可視性の低下,そして紹介や広告ベースのビジネスモデルの崩壊といった問題に対処するものとして説明されています。

より広い視野で見れば,クローリング課金システムは,ペイウォール,デジタル著作権管理(DRM),そしてマイクロペイメントのアプローチの要素を組み合わせた,コンテンツの収益化と管理における最新の形態のひとつであると言えます。

クローリング課金システムの仕組み

すべてのクローリング課金システムが同じ方式で動作するわけではありません。 例えば,システムによっては,機械に料金を支払わせることよりも,コンテンツへのアクセスをブロックすることに重点を置いているものもあります。 しかし,大抵のシステムは以下の要素の組み合わせを含む傾向があります:

  • 認証: クローリング課金システムは,コンテンツにアクセスしようとする機械を操作する個人・組織・製品を識別することを要求します。多くのシステムは,ユーザーエージェントや IP アドレスのように回避されやすい方法ではなく,暗号化された認証を用いています。
  • アクセス制御: クローリング課金システムは,コンテンツにアクセスできる条件(無料で許可するか,ブロックするか,課金するか,といった詳細かつ機能的なルール)を機械ごとに定義します。システムによっては,ウェブサイト側で(アクセスを完全に遮断するのではなく)アクセス頻度の上限を設定できるようになっているものもあります。
  • 価格設定と契約: クローリング課金システムは,ページ単位やデータ量による課金,あるいはサブスクリプションなど,アクセスに対する対価を定義します。契約は一般的に自動化されており,標準化されたライセンスや規約が用いられることもあります。条件は必ずしも金銭的なものだけでなく,帰属表示やその他の再利用に関する義務を伴う場合があります。ウェブサイトのグループを代表して集団交渉を行うことを可能とするシステムもあります。
  • 支払い: クローリング課金システムは,多くの場合,安全な第三者決済サービスを利用した支払いの仕組みを提供します。支払いはウェブサイトに直接かつ即時に行われるか,ウェブサービス事業者のようなシステムの運営者がウェブサイトに代わって受け取ることも可能です。
  • コンテンツ配信: 認証と支払いが完了すると,クローリング課金システムは(通常の場合)機械での利用(consumption)に最適化された形式でコンテンツへのアクセスを可能にします。非公開コンテンツへの暗号化されたアクセスを可能とするシステムもあります。
  • 計測と記録: 課金とある程度の監査可能性(auditability)のために,クローリング課金システムは,コンテンツへのアクセスと利用に関連する情報を記録することが多いです。

クローリング課金システムの開発と利用におけるウェブサイトの役割は様々です。 一部のシステムでは,新興のプロトコルやコードを自ら展開することを選択するかもしれません。 あるいは,専門的な有料製品として開発されたり,ウェブサービス事業者(ドメインホストやコンテンツ配信ネットワークなど)がウェブサイトに代わって導入する場合もあります。 その結果,アクセス課金(pay-to-access)システムは,公開性,標準化,相互運用性,さらにはアクセス制御の許容度や支払い条件においても差異があります。

考慮事項

大規模な AI モデルによるデジタルコンテンツの消費が,その規模においても影響においても前例のないものとなる中で,クローリング課金システムの利用は,ウェブサイトがコンテンツの制作と公開を維持したり作品の代替的な利用(substitutive uses)と見なされるものに対処したりする助けとなるかもしれません。 しかし,クローリング課金の過度に広範で無差別な利用は,研究者,非営利団体,文化遺産機関,教育者,その他公益のために活動する人々によるデジタルコンテンツへのアクセスを遮断し,著作権法やその他の法律で保護された正当な利用を妨げ,さらに新たなウォールド・ガーデン(walled gardens)やウェブ・ゲートキーパーや権力の濫用を生む可能性があります。 クローリング課金が広く採用されれば,最終的にオープンウェブの精神からより厳格に管理・収益化されたコンテンツエコシステムへのシフトをもたらすかもしれません。

事例

クローリング課金システムや関連する取り組みの例としては Cloudflare の Pay Per Crawl, Valyu の AI RevShare, ProRata の GistAttribution, RSL の Open Licensing Protocol, そして TollBit などがあります。

用語に関する注記

用語として既に広く使われているため,私達は「クローリング課金(pay-to-crawl)」をこれらのシステムを表現するために用いています。 技術的に言えば,機械によるコンテンツへのアクセスにはクローリング以外にも多くの目的や形態が存在するため,私達は通常,より広い意味での「アクセス課金(pay-to-access)」を推奨します。 例えば,クローリングという言葉では,コンテンツを抽出して複製するプロセス(しばしばスクレイピングと呼ばれる)や,洞察やパターンを導き出す分析(テキスト・データマイニング)を十分に説明できません。

「ウェブサイト(“Website)」は広範なカテゴリーです。 特にニュース,学術,メディアといった領域においては,コンテンツに責任を負う主体でありクローリング課金システムの利用者でもある存在を説明するには,「パブリッシャー(publisher)」という用語の方がより適切かもしれません。 クローリング課金システムの利用者は,どのように表現されるかに関わらず,そのようなシステムがアクセス管理の対象とするコンテンツの本来の制作者や所有者であるとは限りません。

本稿の文脈において「機械(machine)」はコードや自動化プログラムを用いた体系的なアクセスと利用を指し,人間による典型的な閲覧や利用(consumption)とは区別されます。 「ボット(bot)」という言葉が使われることもあります。 コードや自動化されたプログラムは最終的には人間によって操作されているという事実を曖昧にすべきではありません。

ライセンス

Jack Hardinges による本稿は CC BY 4.0 の下にライセンスされています。


以上, Pay-To-Crawl Issue Brief の翻訳でした。

ブックマーク