最近、Tilly Norwood という俳優が紹介されましたが、実はこの人物は人工知能(AI)モデルでもあります。Particle6 の CEO、Eline Van der Velden 氏によると、目標は「次のスカーレット・ヨハンソン」を生み出すことだといいます。その後、Tilly の登場は単なる話題作りのパフォーマンスであるという意見もいくつかあり、また AI 俳優を映画にキャスティングしようという制作会社もありません。
AI が、AI 俳優を人間の俳優と見まがうものにするほどの段階にあるかどうかにかかわらず、Tilly が生み出すものは、世界中のアーティストや制作関係者の仕事の評価のされかた、彼らの経験や外見的特徴を使用した AI のトレーニングのやりかたに大きな意味を持っています。
こうした文化をめぐる議論の底流には、等しく、議論を呼ぶ技術的な問いかけがあります。Tilly のような AI モデルを実現するには、どのような技術インフラが必要か?映画、広告、インタラクティブメディア全体に、デジタルの「大スター」からなるチームを大規模に揃えることは可能か?
結論だけを言うと、巨大で弾力性のあるコンピューティング能力が必要になるだろうということです。この種の能力は、成熟したクラウドエコシステムのみが提供できるもので、これによって高いパフォーマンスを必要とする AI ワークロードを支えることができます。
次のことを見ていきましょう。AI システムの現状について、シンセティックなペルソナが求めるクラウドワークロードについて、そして Tilly の作成が将来のソフトウェアインフラにどのような意味を持つかについて、です。
AI 俳優を生み出すためのテクノロジーはまだ存在していないのか?
技術的には、AI 俳優というアイデアは SF ではありません。構成要素はすでに存在しています。私たちは、大規模言語モデル(LLM)を用いて感情を伝える言葉を合成し、本物のような顔やしぐさを生成し、動作をシミュレートし、会話の一貫性を保つ方法について知っています。
課題は、これらすべての要素をオーケストレーションすることにあります。これができてこそ、声、身体、意図が連動させて 1 つの継続的なパフォーマンスにすることができるのです。
このオーケストレーションには、単一の要素のトレーニングに必要な工程よりも、はるかに複雑な工程が必要です。説得力のあるペルソナには、背後に次のような分散型 AI インフラがあります。
データの取得
複数のニューラルネットワークのトレーニングと微調整
推論の大規模な実行
フレームのレンダリング
結果の配信
すべてのモダリティでの一貫性の維持
各段階で膨大な量のデータを処理し、コンピューティング能力を限界まで使い切ります。
高忠実度マルチモーダルモデルの 1 回のトレーニングサイクルだけで、数千台の GPU を 24 時間体制で数週間稼働させる場合があります。これは、フル稼働時には、数百キロワットの電力(おおよそ一般家庭数十世帯の 1 か月の電力使用量に相当)が、シンセティック俳優に自然な笑顔の作り方を教えることだけに費やされることを意味します。
このようなプロジェクトがクラウドで行われるのが一般的であることの理由は電力消費量だけではありません。ハイパースケールプロバイダーはエネルギー効率の高いデータセンターをプールしているので、リソースを弾力的に管理できるのです。
クラウドの弾力性が重要である理由
常時オンラインのサービスとは異なり、モデルトレーニングは短時間に集中して行われます。1,000 台の GPU が 2 週間必要になるが、1 か月は不要になる場合があります。このプロセスは途切れやすい性質を持っているため、オンプレミスインフラの経済性が成り立たなくなります。
クラウドでは、同様のリソースがオンデマンドでスピンアップされ、ジョブを実行し、即座に開放されます。これらはすべて DeepSpeed や Ray などの分散型トレーニングフレームワークで管理され、また、Kubernetes クラスター全体でオーケストレーションされます。これによって進行状況のチェックポイントを作成して自動的に障害から復旧します。
データについても同じことが言えます。AI 俳優用のトレーニング素材は、モーションキャプチャからダイアログトラック、ビデオリファレンス、オーディオリファレンスまで、ペタバイト規模に急速に拡大しています。クラウド・オブジェクト・ストレージを使用することで、このデータをコンピューティングノードの近くに配置し、高スループットでストリーミングし、ジョブが完了したときにコスト効率よくアーカイブできます。芸術プロジェクトのように思われますが、その実は、データエンジニアリングが挑戦する巨大なプロジェクトなのです。
レイテンシーの問題
トレーニングが完了しても、Tilly のようなモデルは新たな制約に直面します。それはレイテンシーです。映画のオフラインレンダリングであれば、1 シーンあたり数時間かけることもできますが、インタラクティブな広告キャンペーンや拡張現実体験ではそれは許されません。
バッチレンダリングとリアルタイム推論の違いが、ワークロードの場所を決めるのです。
高スループットのレンダリングは、クラウドの奥深くにある集約型 GPU ファームで実行される傾向があります。
リアルタイムのインタラクションは、ユーザー入力から数ミリ秒以内にモデルの提供ができる、エッジコンピューティングノードと CDN に依存します。
開発者は、最終的には応答性のためにモデルサイズを犠牲にし、ネットワークを量子化・圧縮して、小さなエッジデバイスに合わせますが、同時に中央にあるバージョンには手を付けず、映画品質の出力を実現します。これは忠実性とスピードのバランスを取るということですが、クラウドは、これだけでなく、中央集中のトレーニング、エッジ推論、それらを同期することが可能なグローバルバックボーンという結合組織を提供します。
データの保管、管理、透明性
問題の核心は、文化的影響という点、膨大な量のデータへの対処という点の両方にあります。シンセティック俳優によって生成されるすべてのフレームごとに、保存、移動、検証のために多くのデータが作成されます。未加工の映像、トレーニング済みの重み、レンダリングされたクリップ、メタデータなどデータの量はすぐに増えていきます。階層型ストレージポリシーとライフサイクル管理が、コストを管理し、データの来歴を保持するのに不可欠です。
この来歴の部分は極めて重要です。人間のパフォーマンスとシンセティックなパフォーマンスの境界があいまいになるため、システム自体に透明性を組み込む必要があるのです。ウォーターマーク、コンテンツ認証情報、監査可能なログがすべてのアセットと一緒に移動する必要があります。これにより、デジタルパフォーマンスがどのようにどこで作成されたかをダウンストリームの誰もが検証できるようになります。
クラウドの機械学習(ML)プラットフォームでは、これらの機能を工程に始めから組み込むことが増えてきているため、倫理とコンプライアンスは後回しにされず、展開プロセスの一部になっています。そういう意味では、インフラが説明責任を実現していると言えます。
AI ペルソナの収益化
AI ペルソナの収益化モデルまでもが、インフラ設計に組み込まれています。
企業が API を介して Tilly の外見的特徴に関する権利をライセンスした場合、レイテンシーを厳格に保証した上で、その API をグローバルに分散されたサーバー上で稼働する必要があります。
Tilly がリアルタイムの広告キャンペーンに登場する場合には、低レイテンシーのエッジ配信と、著作権管理のためのウォーターマーク機能が組み込まれていることが必要です。
コンテンツ作成のために Tilly がライセンスされている場合には、安全なストレージと管理された配信が最優先事項になります。
すべてのビジネス上の選択が、技術アーキテクチャやサービスレベル契約と直接結びついています。
全体像
Tilly Norwood は文化的議論を呼ぶ存在かもしれませんが、同時に、クラウドコンピューティングの次の 10 年を定義することになるであろうワークロードの内容を伝える存在でもあります。生成 AI は、静的な画像生成から高需要で低レイテンシーのメディアへと移行しており、それを支えるインフラもそれに応じて進化する必要があります。
現在、参入する上で大きな障壁があります。たとえば、エネルギーコストを手頃な水準に抑えること、膨大な量のデータに対処すること、そして言うまでもなく、倫理的な問題のすべてを分析することなどです。しかし、克服できない障壁はありません。わずか数年の間における AI の成長と変化の速度を考えると、インフラテクノロジーはこれに備えておく必要があるでしょう。
現在、多くのチームがクラウドプロバイダーに頼っています。クラウドプロバイダーは、高パフォーマンスのコンピューティング環境とクラウドサービスで大規模な AI プロジェクトをサポートし、データレイクからモデルトレーニングの工程まで、あらゆるものを処理します。最新の AI 開発に必要なコンピューティングリソースへのアクセスの信頼性を確保するためには、AI インフラのコンポーネントをスケーラブルなストレージシステムに統合し、データ処理ワークフローを合理化し、GPU、CPU、その他の専用ハードウェア全体で並列処理を最適化する必要があります。
これらの機能により、AI ソリューションを拡張性があるだけでなくコスト効率の高いものにし、あらゆる種類の複雑な AI ワークロードを試している企業に提供できるのです。
タグ