ネット上に氾濫するAI生成コンテンツ!「ハリー・ポッター・バイ・バレンシアガ」がバズった件に関する考察

Infinite Scroll

A.I. Pop Culture Is Already Here
AI ポップ カルチャーはすでにここにある

We’re living in a world in which every style, every idea, and every possible remix can be generated as fast and frictionlessly as possible.

私たちは、あらゆるスタイル、あらゆるアイデア、あらゆる可能なリミックスを可能な限り迅速かつ簡単に生成できる世界に生きています。

By Kyle Chayka April 7, 2023

 先月、デーモンフライングフォックス(demonflyingfox) という名のユーチューバーがハリー・ポッター・バイ・バレンシアガ(Harry Potter by Balenciaga)というタイトルの動画をアップロードしました。映画「ハリー・ポッター」シリーズのキャラクターが登場する動画でした。ハグリッド(Hagrid)、ロン(Ron)、ハーマイオニー(Hermione)、スネイプ(Snape)、マクゴナガル(McGonagall)、ドビー(Dobby)などとおぼしきキャラクターが登場していました。ハグリッドらは、頬骨が尖って、いくぶんやつれて見えるほど頬がこけてモデルのような風貌でした。ゴシック調のケープとレザージャケットを羽織っていました。キャットウォークに相応しいエレクトロニカ・ビート(電子音楽や電子音楽に影響されている音楽)に合わせて、彼らはまばたきをしたり、うなずいたり、ファッション雑誌に記されている文言を台詞のようにしゃべっていました。「ハリー、お前はバレンシアガだ!」とハグリッドは言いました。それは、映画「ハリー・ポッター」シリーズでハグリッドがハリーが魔法使いになったことを伝えた場面をパロったものでした。その動画は、いささか奇妙で、滑稽でもあり、不吉な感じを与えるものでもありました。その動画は公開されてから3 週間で、500 万ビューを獲得しました。それから1 週間も経たないうちにリリースされた続編は、150万回以上再生されました。別々の有名な楽曲や伴奏や動画を合成して、全く新しい楽曲や動画を作ることをマッシュアップ(mashups)と呼ぶわけですが、現在ではネット上で急速に拡散される多くのコンテンツはマッシュアップであると言っても過言ではありません。いわゆる、インターネット・ミームの典型例であることも少なくありません。ちなみに、インターネット・ミーム(Internet meme)とはインターネットを通じて人から人へと、通常は模倣として拡がっていく行動・コンセプト・メディアを指す専門用語です。投稿された動画、ハリー・ポッター・バイ・バレンシアガ(Harry Potter by Balenciaga)は、AIツールで生成されたことが特徴です。この動画の作成者であり、ベルリンを拠点に活動する写真家で、デーモンフライングフォックス(demonflyingfox) と言う名でユーチューブに動画を投稿しているアレクサンダー・二クラス(Alexander Niklass)によると、この動画はAI の秘められた能力を示しているそうです。それは、映画のような映像を紡ぎ出す能力です。

 二クラスがユーチューブにアップした動画では、AI ツールが様々なプロセスに様々な形で関与しています。彼はまずミッドジャーニー(Midjourney)と言うキーワードに合った画像を自動的に生成してくれるAIを利用して基本的な静止画像を作成しました。そのAIは、見事にハリーポッターの登場人物を生成することができました。テキストをプロンプトに打ち込むことで、男性モデルの雰囲気を醸し出すとか、グロテスクな感じを出すとか、バレンシアガのコマーシャルのような雰囲気を出す等の指定することで、さまざまな形にデフォルメすることも可能です。次に、音声AIツールであるイレブンラボス(ElevenLabs:全く同じ声色を生成することができる)を使用して、ハグリッドらの以前に録音された音声を参考にしてモデルになってしゃべる際の声を合成しました。最後に、二クラスはD-IDと呼ばれるサービス(アバター動画生成AIサービス)に最初に生成した静止画像を送り込みました。D-IDは、アバター動画(avatar videos)を生成するサービスです。それを使ったおかげでアバターは非常に繊細で精巧な動きをしました。また、D-IDを使って、アバターにリップシンク(セリフと口の動きをシンクロさせること)させることもできます。首をかしげる動作も加えていました。クラウスは、その動きは、ファッションモデルがカメラに向かって顎を傾けるのを忠実に真似たものだと説明していました。子供向けの映画と大人向けの高級ファッションをリミックスした動画は、特に象徴的な意味があるわけではなく、芸術的な意図を表現するものでもありません。クラウスは、これは純粋な「エンターテインメント」なのだと言っていました。この動画の最も魅力的な点は、その空虚さにあるのです。文化的な2つのシンボルを無意味に組み合わせたことにあるのです。その無意味さこそが重要なのです。

 AIツールは、俳優の顔を複製したり、ファッショナブルな衣装を生成することができるかもしれません。しかし、クラウスが作成した動画のコンセプトは、クラウスにしか想起できないものです。最先端のファッションと魔法の世界の両方を熟知している人物にしかできないものです。また、ネット上でバズらせる方法を熟知していて、ユーモアのセンスがなければできないものでした。ミッドジャーニー(Midjourney)のようなツールがネット上で誰でも簡単に使えるようになったことで、「誰でも魅力的な映像を作れる状況になった」と彼は指摘しています。しかし、彼は、「AIはまだテイスト(taste)を生成することはできない。」とも言っていました。彼が説明するのは難しいと言っていたのですが、テイスト (taste)とは、”優れた審美観”のことです。”優れた審美観”があれば、生成されるものが不気味の谷(uncanny valley:生成されるものが現実に似すぎて嫌悪感を感じさせること)に陥ることは避けられて、生成するものの体現する価値を認識して、生成されるものの見栄えを良くすることができます。つまり、ジェネレーティブAI(学習した大量のデータを使用して、与えられた指示に沿った、まったく新しいコンテンツを作成するAI)によって誰もが映像を作ることができるような状況になったわけですが、魅力的な映像を作るということは誰もができるわけではないということです。やはり、依然として人間が何を作るかということを発案しなければならないという状況は変わらないわけです。AIが生成するものを人間が修正や編集したり、組み合わせたりしなくてはならないのです。クラウスのセンスの良さ、つまり”優れた審美観”は、YouTubeにアップされている彼がパロって作った動画の数々を見ればうかがい知ることができます。 誰もが同じテクノロジーにアクセスして、彼が作ったような動画を同様の方法で容易に生成できるようになりました。実際、You Tube にプロンプトジャングル(PromptJungle)という AIについて学べるチャネルがあるのですが、そこではチュートリアル動画(video tutorial)で、その正確なプロセスを知ることができます。現在、You Tube上に、マトリックス・バイ・グッチ(Matrix by Gucci)、スターウォーズ・バイ・バレンシアガ(Star Wars by Balenciaga)、ジ・オフィス・バイ・バレンシアガ(The Office by Balenciaga:訳者注 The Officeはイギリスのテレビドラマ)などの動画があがっていましたが、オリジナル(クラウスのハリー・ポッター・バイ・バレンシアガ)ほど魅力的な奇抜さを感じさせるものはありません。

 「ハリー・ポッター ・バイ・バレンシアガ」を本物のパリー・ポッターシリーズの映画の映像だと勘違いした人はいないでしょう。しかし、本物のファッションのキャンペーン動画と勘違いした人は少なからずいたかもしれません。先日、AIが生成したある映像がニュースで取り上げられる事態となりました。それを、多くの人が本物だと勘違いしたからです。それは、ローマ教皇フランシスコの写真でした(実際は、偽物なわけですが)。教皇は、絹のように白い、高い襟とフードが付いたフカフカのジャケットを身に着けて街を歩いていました。首には十字架の付いたネックレスがぶら下がり、テイクアウトしたコーヒーを手にしていました。威張ってふんぞりかえったような態度でした。ディテールと質感から判断すると、いかにも本物の写真のように見えました。私は初めてこの画像を目にした時、さっと全体に目を通したのですが、これは本物の映像で、加工は一切されていないものだと思いました。ローマ教皇が派手な服装をしていたのですが、それほど不自然な感じはしなかったのです。モデルで女優でもあるクリッシー・テイゲン(Chrissy Teigen)も騙された口です。その映像について「2度と見たくない!」とツイートしていました。しかし、これはシカゴの男性がミッドジャーニー(Midjourney)を使って生成したものでした。生成したのは、パブロ・ザビエル(Pablo Xavier)と名乗る人物でした。彼がシカゴ・トリビューン(Chicago Tribune)紙に語ったところでは、マッシュルームでハイになっていた時にその画像を作成したそうです。彼は、AIのコマンドプロンプトに「カトリック教皇フランシスコ、、バレンシアガのフカフカコート、パリの街並み(Catholic Pope Francis、Balenciaga puffy coat、Streets of Paris)」等のフレーズを入力したそうです。おそらくAIは、このファッションブランドについて十分に学習していて、前衛的で高級なブランドと認識していたと推測されます。「私は、ローマ教皇が奇妙なジャケットを着ているのを見て、面白いと思っただけです。」と、ザビエルはBuzzFeed Newsの取材に応じて話していました。

 その画像は、明確な制作意図を持って作られたものではありませんし、想像力や機知に富んだものでもありませんでした。しかし、本物の写真のように見えるため、見る者に非常に強い印象を与えました。そうした画像を、今では誰でも簡単にオンライン環境さえあれば作ることができるのです。以前は、手作業で画像をレタッチ(retouch:写真の切り貼り・修正・補正)しなければならず、熟練したレタッチャーにしかできないことでした。しかし、AIは創造的でインパクトの強い画像を自動で生成できるようになったので、画像や動画の制作現場では熟練労働者は駆逐されつつあります。ちなみに、もし、「ハリー・ポッター・バイ・バイバレンシアガ」の実写版の動画を作成するとなると、人件費だけで数百万ドルは必要になると推定されています。AIが非常に少ないコストで価値の高い映像を生成できることを私は認識したわけですが、そのことについてChatGPTといろいろ話してみました。実務的な議論というよりは哲学的な議論になってしまいました。鏡に映った自分に向かって話しているような感じでした。しかし、それなりに理解が深まったような気がします。私は、AIが生成した映像が、私たちの認識をどのように変えているのかを尋ねてみました。すると、「本物と人工物の境界線が曖昧になっている。」との答えが返ってきました。次に私が問うたのは、AIが生成する人工的な映像も、人間が何かを表現したいという欲求を満たそうとして作り出したものだから、本物なのではないかということでした。ChatGPTは、AIが生成した映像は本物と区別のつきにくいものも少なくなく、「しばしば本物と錯覚するようにデザインされていることもある」と答えました。ChatGPTは「錯覚するほどのリアルさ(illusory realism)」という表現を使っていました。私には、その表現は非常に適切なものだと思えました。AIが生成する映像は、本物のように見えますが、実際には本物ではないのです。あくまでも映像の見た目のみが本物に近いだけです。

 ミッドジャーニー(Midjourney)の創設者であるデビッド・ホルツ(David Holz)は、2022年のインタビューで、「審美的加速主義(aesthetic accelerationism)」という言葉を使いました。その語は、誰もがAIツールを使用可能となり、生成された映像が氾濫する状況を表現するために使われました。この言葉は、あらゆる映像が非常に速く即座に大量に生成され、その中に非常に注目を集めるものもあるという状況を示しています。さまざまなスタイルの映像があり、いろんな意図を持った映像があり、沢山の素材を切り貼りしたような映像もあるわけですが、どんな映像でもAIは生成することができるのです。注目を集めることに成功した映像というと、「ハリー・ポッター・バイ・バレンシアガ」や「ふんぞりかえったローマ教皇」があるわけですが、他にも沢山あります。それらは、決して芸術的な側面で優れているわけではありません。ひょっとすると、注目される映像には何らかの共通点があるのかもしれません。なんとなく思ったのですが、注目を集めた映像は、想像を絶するほど奇抜なもので、全く無関係な2つのものをあたかも本物っぽく見せて融合させたものが多いような気がします。また、本物でないことが明白なのに、本物のように見えてしまうものも(だまし絵も含まれますが)注目を集める映像には多いようです。完璧なレプリカも魅力があって非常に注目を集めるわけですが、それも同じ理由です。

 ここ数日、私は新しいヒップホップの新曲を何度も繰り返し再生しています。2人組のアルタ(AllttA)というバンドによる”Savages(野蛮人)”という曲です(実際には2人組ではなく、AIが生成した2種類の声が流れている)。合成されたストリングスの音とスネアのバックビートによって甘くノスタルジックな曲に仕上がっています。この曲は、AIが生成したJay-Zの声が、もう1つの生成された音声とラップバトルをします。というか、詩を順番に詠み交わし合っているような曲です。もちろん、Jay-Zが実際に歌っているわけではなく、AIが彼の声を生成して、それを使っているだけのことです。おそらくアーティスト(Jay-Z)の許可なんか取っていないと思われます。この曲もまた、「錯覚するほどのリアルさ(illusory realism)」の一例です。アルタ(AllttA)の曲は曲自体が十分に魅力的で、偽のJay-Zの音声が無くてもまったく問題ないのですが、聞き覚えのある声がこの曲に何とも言えない説得力を与えています。1990年代に発売されたシングルCDに2曲目として入っていたような曲に仕上がっています。YouTubeでの再生回数は20万回を超えています。コメントがいくつも残されているのですが、「この曲自体とても素晴らしいわ!AIが生成した音声には思えないわ?」というコメントもありました。私も同じように感じていて、AIが合成した音声なのに本物の人間の声なのか判断することはできません。本当のJay-Zの声か否かということは私には分かりません。なぜかというと、AIが生成する音声のレベルが非常に高くなっているからです。それと、私が音声分析の専門家ではないということもあります。しかし、もはや私にとって本物の人間の声か否かということは重要ではなくなりました。AIによって生成された人工的な音声であったとしても全く問題はないのです。純粋に、この曲を聴こえるままに聴いて楽しむだけです。AIが生成した曲の出来栄えがここまで良くなっているとは予想していませんでした。現在、既に多くのAIが生成した映像や音声や動画がネット上で非常に注目を集めているわけで、私たちはもうAIを排除できない状況です。♦

以上