Soraの失敗が証明した「B2C動画生成AIは成立しない」という現実
コスト構造から読み解く、Text-to-Videoの限界と今後の市場
2026年3月24日、OpenAIはAI動画生成サービス「Sora」を静かに終了させた。
「AIで動画が作れる時代が来た」と大きく話題を集めたSoraだが、その裏側にあった経済的現実は衝撃的だった。推定日次コスト$15M(約23億円)に対し、生涯累計収益はわずか$2.1M。どう計算しても成り立たない数字だ。
この失敗は単なるOpenAIの一製品の終焉ではない。「B2C向けの動画生成AIはそもそも成立するのか」という、業界全体への根本的な問いを投げかけている。
Soraの財動実態

OpenAIのSora責任者Bill Peeblesは撤退時に「経済性は完全に持続不可能」と明言した。公表された数字を並べると、その崩壊の幅が視覚化できる。
| 指標 | 数値 |
|---|---|
| 推定日次コスト | $15M(約23億円) |
| 年間換算バーンレート | 約$5.4B(約8,400億円) |
| 生涯累計収益 | $2.1M(約3億円) |
| 10秒動画1本の生成コスト | 約$130 |
| アクティブユーザー数 | 50万人以下 |
| サービス終了日 | 2026年3月24日 |
最も衝撃的なのは「収益対コスト比」だ。日次コスト$15Mに対して生涯累計収益は$2.1M——つまりコストの0.01%しか叞消できなかった。月額$20程度のサブスクリプションでユーザーが動画を何本でも生成できる構造では、1本作るだけでOpenAIは赤字になる計算だ。構造的に詰んでいた。
「Sora 2.0」の失敗
OpenAIは2025年末に「Sora 2.0」として品質を大幅向上させたアップデートを行った。しかしこれが裏目に出た。品質が上がるほどGPU負荷も上がり、コスト構造の悪化は加速した。ユーザー数が増えなかったのは「品質が低かったから」ではなく、「消費者にとって動画生成のユースケース自体がなかった」に尺如する。
なぜ動画だけコストが「指数関数的」に膨らむのか

Text-to-X(テキストから何かを生成するAI)のコストは、出力の複雑さに応じて跳ね上がる。各モダリティを比較すると構造的な差が明らかになる。
テキスト生成は「次のトークンを1つ予測する」処理の積み重ねで済む。GPUへの負荷は比較的小さく、価格競争も進んで$2〜15/Mトークン程度まで下がっている。Epoch AIの分析では2030年までにさらに90%削減されると予測されている。
画像生成はテキストより高いが管理可能だ。1枚のフレームをレンダリングすれば完結する。空間的な整合性は必要だが、時間軸の処理は不要。DALL-E 3やStable Diffusion 3.5は1枚数円、0.1ドル未満のレンジで実用化されている。
音声・音楽生成は中間のコスト帯にある。時間軸の整合性は必要だが、ピクセル単位のレンダリングは不要。ElevenLabsやSunoなどがサブスク等の小額料金で提供できているのはこのためだ。
動画生成はここが別次元になる。以下の3要素が掛け算になるからだ。
- 空間整合性:各フレームでピクセル配置が正確であること
- 時間的整合性:フレーム間で物体・光源・物理法則が連続して矛盾しないこと
- スケール:24fps × 秒数 × 解像度 = 膨大な演算量
テキストが「次の1単語」を予測するだけなのに対し、動画は「過去全フレームの文脈を保持しながら次のフレームを生成し続ける」必要がある。これが根本的に違う点だ。
数字で見るコスト差
1920×1080 / 24fps / 10秒の動画を例に取ると、1生成あたりのフレーム数は240フレームになる。画像生成と比べて240倍のレンダリング負荷がかかり、その上で各フレーム間の整合性を保つ追加モデル参照コストも発生する。言い换えると、**「1枚の画像」でなく「240枚が互いに整合した画像」を同時に生成する」コストだ。
モダリティ別のコスト感
テキスト ██░░░░░░░░ 低コスト・急速に低下中
画像 ████░░░░░░ 中コスト・管理可能
音声/音楽 █████░░░░░ 中〜高コスト
動画 ██████████ 超高コスト・改善に時間がかかる
上に行くほど「1回の生成で必要な演算量」が増える。動画だけが突出しているのがわかると思う。
B2C動画生成が「今」成立しない理由

問題はコストだけではない。消費者の支払い意欲(WTP)とのギャップが埋まらないことだ。
一般ユーザーが動画生成AIに払える金額は月数百〜数千円程度。しかし10秒動画を1本生成するコストは$130(約2万円)。どんな価格設定をしても赤字にしかならない。
Soraはこの構造を「スケールすれば解決する」と賭けたが、ユーザー数が増えれば増えるほど赤字が膨らむ仕組みだった。スケールが解決策にならない、珍しいビジネスモデルだった。
ネットフリックスの失敗と共鳴する構造
実はこのパターンは過去にも見られた。ネットフリックスは2011年にストリーミングを始めたとき、コンテンツ配信コストが収益を大幅に上回っていた。しかし「視聴者数が増えればコストが下がる」という読みで、およぐ10年でスケールメリットを證明した。
動画生成AIがネットフリックスと根本的に差なるのは、「コンテンツの再利用」ができない点だ。ネットフリックスは1本の映画を何度でも視聴者に届けられるが、AI動画はリクエストのたびに新規生成が発生する。ようは構造的に乗り越えられない壁だ。
成立するのはB2Bのみ
ただし、動画生成AIがすべてダメというわけではない。明確なROIがある企業用途なら$130/本でも十分正当化できる。
| 用途 | 従来コスト | AI生成コスト | ROI |
|---|---|---|---|
| TV広告30秒 | 数百万円 | $390(約5.9万円) | 大 |
| 社内研修動画 | 50与円 | $130(約2万円) | 大 |
| EC商品動画 | 3与5,000円 | $130(約2万円) | 高い |
| スマホ用SNS動画 | 5与10万円 | $130(約2万円) | 中 |
RunwayやPikaなどはこの市場を静かに攻略している。価格が高くても「従来の制作コストとの差額」で十分ペイするからだ。実際、RunwayはEnterpriseプランの年間契約数を年、2倍以上のペースで拡大させている。
これからのText-to-X市場の展望

Soraの失敗が示す今後の方向性をまとめるとこうなる。
Text / Image:急速に民主化が進む
トークン価格は年率で急速に低下しており、個人開発者でも気軽にAPIを叩ける時代が続く。Epoch AIの予測では2030年までにテキスト生成コストがさらに90%削減される見込みで、個人開発・小視SaaSにとってはむしろ追い風の時代だ。
Video:当面B2B専用
GPU単価の低下とアーキテクチャの改善が必要で、個人向けの価格が現実的になるのは早くても2028〜2030年以降と見られている。NVIDIAのVera Rubin GPU(GTC 2026発表)はトークン効率35倍向上が見込まれているが、動画生成の根本的なコスト構造は数年内には解決しない。
オンプレミス回帰
クラウドAPIより自前GPU環境の方が最大18倍安いというケースも出始めており、コスト意識の高い開発者のセルフホストシフトが加速している。Stable DiffusionやComfyUIのローカル実行が普及した構図が、動画系モデルでも徐々に広がっていくだろう。
マルチプロバイダー戦略の重要性
今回のOpenAIの撃減可能制作の技術領域へのリソース集中は、逆説的にText・Image APIのコストをさらに下げる原動力になる可能性がある。ユーザー側から見ると、OpenAI一強に韓湀せず、Anthropic Claude / Google Gemini / Mistralなどを平行利用するマルチプロバイダー戦略がリスクヘッジになる。
開発者にとって今すべきこと
Soraの失敗を冠まえれば、サービス設計の観点で実践的な示唑がいくつかある。
- コスト構造の検証を先にする:「技術的に出来る」と「ビジネスとして成立する」は別物。MVP階段で必ず「1回の生成にいくらかかるか」を計算する
- モダリティ選択は慷めに:現時点でText・Imageは得意領域、VideoはB2B限定か魔法のコスト削減なしには手を広げない
- WTPを先に調査する:ユーザーが実際に「いくら払うか」をレビュー・インタビューで検証してから設計する
- B2Bユースケースを探る:動画生成を使いたければ「人が金を払っている素材制作プロセスを置き換える」用途から始める
おわりに
Soraの終了は「OpenAIの失敗」ではなく、AI市場が現実を直視し始めたシグナルだと思う。
「AIで何でもできる」時代から「AIで持続的に何ができるか」を合理的に考える時代への移行だ。動画生成AIはまだその段階に達していない。
一方でテキスト・画像生成は急速に安くなっており、個人開発者にとっては追い風の時代だ。どのモダリティに集中するかを冷静に選ぶことが、これからのAI活用の鍵になると感じている。