Soraの失敗が証明した「B2C動画生成AIは成立しない」という現実

コスト構造から読み解く、Text-to-Videoの限界と今後の市場

Tomoyaのプロフィール写真

Written by

Tomoya

Support AI: Perplexity


2026年3月24日、OpenAIはAI動画生成サービス「Sora」を静かに終了させた。

「AIで動画が作れる時代が来た」と大きく話題を集めたSoraだが、その裏側にあった経済的現実は衝撃的だった。推定日次コスト$15M(約23億円)に対し、生涯累計収益はわずか$2.1M。どう計算しても成り立たない数字だ。

この失敗は単なるOpenAIの一製品の終焉ではない。「B2C向けの動画生成AIはそもそも成立するのか」という、業界全体への根本的な問いを投げかけている。


Soraの財動実態

Cost vs Revenue

OpenAIのSora責任者Bill Peeblesは撤退時に「経済性は完全に持続不可能」と明言した。公表された数字を並べると、その崩壊の幅が視覚化できる。

指標数値
推定日次コスト$15M(約23億円)
年間換算バーンレート約$5.4B(約8,400億円)
生涯累計収益$2.1M(約3億円)
10秒動画1本の生成コスト約$130
アクティブユーザー数50万人以下
サービス終了日2026年3月24日

最も衝撃的なのは「収益対コスト比」だ。日次コスト$15Mに対して生涯累計収益は$2.1M——つまりコストの0.01%しか叞消できなかった。月額$20程度のサブスクリプションでユーザーが動画を何本でも生成できる構造では、1本作るだけでOpenAIは赤字になる計算だ。構造的に詰んでいた。

「Sora 2.0」の失敗

OpenAIは2025年末に「Sora 2.0」として品質を大幅向上させたアップデートを行った。しかしこれが裏目に出た。品質が上がるほどGPU負荷も上がり、コスト構造の悪化は加速した。ユーザー数が増えなかったのは「品質が低かったから」ではなく、「消費者にとって動画生成のユースケース自体がなかった」に尺如する。


なぜ動画だけコストが「指数関数的」に膨らむのか

costSpake

Text-to-X(テキストから何かを生成するAI)のコストは、出力の複雑さに応じて跳ね上がる。各モダリティを比較すると構造的な差が明らかになる。

テキスト生成は「次のトークンを1つ予測する」処理の積み重ねで済む。GPUへの負荷は比較的小さく、価格競争も進んで$2〜15/Mトークン程度まで下がっている。Epoch AIの分析では2030年までにさらに90%削減されると予測されている。

画像生成はテキストより高いが管理可能だ。1枚のフレームをレンダリングすれば完結する。空間的な整合性は必要だが、時間軸の処理は不要。DALL-E 3やStable Diffusion 3.5は1枚数円、0.1ドル未満のレンジで実用化されている。

音声・音楽生成は中間のコスト帯にある。時間軸の整合性は必要だが、ピクセル単位のレンダリングは不要。ElevenLabsやSunoなどがサブスク等の小額料金で提供できているのはこのためだ。

動画生成はここが別次元になる。以下の3要素が掛け算になるからだ。

  • 空間整合性:各フレームでピクセル配置が正確であること
  • 時間的整合性:フレーム間で物体・光源・物理法則が連続して矛盾しないこと
  • スケール:24fps × 秒数 × 解像度 = 膨大な演算量

テキストが「次の1単語」を予測するだけなのに対し、動画は「過去全フレームの文脈を保持しながら次のフレームを生成し続ける」必要がある。これが根本的に違う点だ。

数字で見るコスト差

1920×1080 / 24fps / 10秒の動画を例に取ると、1生成あたりのフレーム数は240フレームになる。画像生成と比べて240倍のレンダリング負荷がかかり、その上で各フレーム間の整合性を保つ追加モデル参照コストも発生する。言い换えると、**「1枚の画像」でなく「240枚が互いに整合した画像」を同時に生成する」コストだ。


モダリティ別のコスト感

テキスト  ██░░░░░░░░  低コスト・急速に低下中
画像      ████░░░░░░  中コスト・管理可能
音声/音楽 █████░░░░░  中〜高コスト
動画      ██████████  超高コスト・改善に時間がかかる

上に行くほど「1回の生成で必要な演算量」が増える。動画だけが突出しているのがわかると思う。


B2C動画生成が「今」成立しない理由

Netflix_AI_Video_Generation_model

問題はコストだけではない。消費者の支払い意欲(WTP)とのギャップが埋まらないことだ。

一般ユーザーが動画生成AIに払える金額は月数百〜数千円程度。しかし10秒動画を1本生成するコストは$130(約2万円)。どんな価格設定をしても赤字にしかならない。

Soraはこの構造を「スケールすれば解決する」と賭けたが、ユーザー数が増えれば増えるほど赤字が膨らむ仕組みだった。スケールが解決策にならない、珍しいビジネスモデルだった。

ネットフリックスの失敗と共鳴する構造

実はこのパターンは過去にも見られた。ネットフリックスは2011年にストリーミングを始めたとき、コンテンツ配信コストが収益を大幅に上回っていた。しかし「視聴者数が増えればコストが下がる」という読みで、およぐ10年でスケールメリットを證明した。

動画生成AIがネットフリックスと根本的に差なるのは、「コンテンツの再利用」ができない点だ。ネットフリックスは1本の映画を何度でも視聴者に届けられるが、AI動画はリクエストのたびに新規生成が発生する。ようは構造的に乗り越えられない壁だ。


成立するのはB2Bのみ

ただし、動画生成AIがすべてダメというわけではない。明確なROIがある企業用途なら$130/本でも十分正当化できる。

用途従来コストAI生成コストROI
TV広告30秒数百万円$390(約5.9万円)
社内研修動画50与円$130(約2万円)
EC商品動画3与5,000円$130(約2万円)高い
スマホ用SNS動画5与10万円$130(約2万円)

RunwayやPikaなどはこの市場を静かに攻略している。価格が高くても「従来の制作コストとの差額」で十分ペイするからだ。実際、RunwayはEnterpriseプランの年間契約数を年、2倍以上のペースで拡大させている。


これからのText-to-X市場の展望

Text_to_X

Soraの失敗が示す今後の方向性をまとめるとこうなる。

Text / Image:急速に民主化が進む

トークン価格は年率で急速に低下しており、個人開発者でも気軽にAPIを叩ける時代が続く。Epoch AIの予測では2030年までにテキスト生成コストがさらに90%削減される見込みで、個人開発・小視SaaSにとってはむしろ追い風の時代だ。

Video:当面B2B専用

GPU単価の低下とアーキテクチャの改善が必要で、個人向けの価格が現実的になるのは早くても2028〜2030年以降と見られている。NVIDIAのVera Rubin GPU(GTC 2026発表)はトークン効率35倍向上が見込まれているが、動画生成の根本的なコスト構造は数年内には解決しない。

オンプレミス回帰

クラウドAPIより自前GPU環境の方が最大18倍安いというケースも出始めており、コスト意識の高い開発者のセルフホストシフトが加速している。Stable DiffusionやComfyUIのローカル実行が普及した構図が、動画系モデルでも徐々に広がっていくだろう。

マルチプロバイダー戦略の重要性

今回のOpenAIの撃減可能制作の技術領域へのリソース集中は、逆説的にText・Image APIのコストをさらに下げる原動力になる可能性がある。ユーザー側から見ると、OpenAI一強に韓湀せず、Anthropic Claude / Google Gemini / Mistralなどを平行利用するマルチプロバイダー戦略がリスクヘッジになる。


開発者にとって今すべきこと

Soraの失敗を冠まえれば、サービス設計の観点で実践的な示唑がいくつかある。

  • コスト構造の検証を先にする:「技術的に出来る」と「ビジネスとして成立する」は別物。MVP階段で必ず「1回の生成にいくらかかるか」を計算する
  • モダリティ選択は慷めに:現時点でText・Imageは得意領域、VideoはB2B限定か魔法のコスト削減なしには手を広げない
  • WTPを先に調査する:ユーザーが実際に「いくら払うか」をレビュー・インタビューで検証してから設計する
  • B2Bユースケースを探る:動画生成を使いたければ「人が金を払っている素材制作プロセスを置き換える」用途から始める

おわりに

Soraの終了は「OpenAIの失敗」ではなく、AI市場が現実を直視し始めたシグナルだと思う。

「AIで何でもできる」時代から「AIで持続的に何ができるか」を合理的に考える時代への移行だ。動画生成AIはまだその段階に達していない。

一方でテキスト・画像生成は急速に安くなっており、個人開発者にとっては追い風の時代だ。どのモダリティに集中するかを冷静に選ぶことが、これからのAI活用の鍵になると感じている。