自家中毒を起こす AI

no extension

久しぶりに P2Ptk.org の翻訳記事を見た気がする。

またコリイ・ドクトロウさんってばお下品な言葉を(笑)と思ったが “botshit” というのは2024年1月のこの論文が元ネタらしい。

Abstract によると

Generative chatbots do this work by ‘predicting’ responses rather than ‘knowing’ the meaning of their responses. This means chatbots can produce coherent sounding but inaccurate or fabricated content, referred to as ‘hallucinations’. When humans use this untruthful content for tasks, it becomes what we call ‘botshit’.

なんだそうだ。 そしてコリイ・ドクトロウさんによると「すでにインターネットはbotshitの肥溜めと化しているinternet is already drowning in it)」ということらしい。 つか,訳文のほうがお下品だな(笑)

これによって起こりうるのがモデル崩壊(Model Collapse)である。 以下は2023年5月の論文。

We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web.

なんちうか,これって自家中毒みたいだよな(喩えが雑)。 こっちの記事のほうがイメージしやすいかな。

Just as we’ve strewn the oceans with plastic trash and filled the atmosphere with carbon dioxide, so we’re about to fill the Internet with blah. This will make it harder to train newer models by scraping the web, giving an advantage to firms which already did that, or which control access to human interfaces at scale. Indeed, we already see AI startups hammering the Internet Archive for training data.

“AI startups hammering the Internet Archive for training data” の部分を示す記事がこれだね。

Tens of thousands of requests per second for our public domain OCR files were launched from 64 virtual hosts on amazon’s AWS services. (Even by web standards,10’s of thousands of requests per second is a lot.)

これは酷い。 1年前にこんなことが起こってたのか。

モデル崩壊については,私も耳にしていたが,昨年前半は仕事が徐々に忙しくなっていて LLM への関心が薄れていたんだよな。

皮肉なことに、AI企業自身がこの問題の火種を作っている。GoogleやMicrosoftによる「AI検索」の全面的な推進は、検索エンジンがウェブページへのリンクを返すのではなく、そのコンテンツを要約する未来を想定している。しかし、そうなれば誰がウェブを書くだろうか。あなたの書いたものを見つけられるのはAIのクローラーだけで、しかもそのAIはあなたの書いたものを自分のトレーニングの餌にするだけで、読者にあなたの書いたものを紹介する気は毛頭ない。AIが検索を支配すれば、オープンウェブはAIの工業的畜産場(CAFO)となり、検索クローラーはますます肥溜めからクソを吸い上げるようになるだろう。

大昔,仕事とかでメールのやり取りに辟易してた頃, AI がエージェントとなってメール送受信を仲立ちしてくれれば,マナーと称した下らない時候の挨拶とか書かなくて済むし,分かりにくい文面も要約してくれるんじゃないか? と夢想したものだが,人同士のやり取りを LLM が仲立ちして肩代わりするようになったらどんな恐ろしいことが起きるんだろうねぇ(笑)

ところで,この記事の最初の方に

かつては、一部の作家や読者がSFを予言と勘違いしても、さして問題にはならなかった。SF=予言という妄想に駆られた人々に、社会を間違った方向に再構築する力がなかったからだ。しかし、SFに取り憑かれたテック億万長者たちが、我先に「人類苦悩化システム(torment nexus)」の発明に乗り出すに至っては、SF作家たちは作り物のお話と予言とを明確に区別しなくてはならなくなった(例「サイバーパンクは警告であって提案ではない」)。

とか書かれていて思わず笑ってしまったのだが,似たような話を yomoyomo さんが紹介していた。

この記事でも

コリイ・ドクトロウは、実際にものを作る人の多くが SF にインスピレーションを受けているのは否定できないと認めながらも、物語の寓意をそのまま受け取りすぎるのは、「プラトンの洞窟」を本当に探すようなものと語っている。

と紹介している。 ほかにも

結局のところ、SF が我々が築く未来の青写真になるんですかね? という最初の問いに、N・K・ジェミシンが、そんなわけない。他の文学ジャンルと変わらん。ちょっとしたことを一つ正しく言い当てて、他はすべてハズレなのが「先見の明がある」ヴィジョンと言えるか? と答えていて受けた。

と紹介されていて,これが一番面白かった。 「SFに取り憑かれたテック億万長者たち」のせいで SF 作家がわざわざこういうことを言わないといけない世の中になったのかねぇ。

ブックマーク