映像を“描く”AIが進化───「撮らずに作る」時代に

‍‍

映像制作はもはや撮るだけとは限らない。生成AIの進化によって、AIが動画を“描く”時代が始まっている。高価な機材や高度なスキルが求められた映像制作が、誰でも手軽に試せる領域へと変わり始めている。

　◆ 「Sora」の衝撃

この分野でまず注目を集めたのが、米OpenAIが発表した動画生成モデル「Sora」だ。2024年の発表以来、文字から高度にリアルな物理世界を描き出す能力で業界を驚かせた。自然な光の移動、空間認識に即した動き、映画のようなカメラワーク──それらがテキスト1行から生み出される。

◆ 多様に広がる中国発ツール

中国でも、この分野における開発競争が活発化している。2025年3月、テンセントは自社の大規模言語モデル「混元（Hunyuan）」を応用し、画像1枚と簡単なテキスト入力だけで5秒間の映像を生成するモデルを公開した。

人物画像に音声を組み合わせることで、話す・歌う・踊るといった自然な動作を瞬時に再現できる。肌や髪の質感まで細やかに表現され、誰でも簡単に高品質な映像が作れるのが特徴だ。

**中国製AI動画生成ツール一覧（用途別分類）**
ツール名	提供元	得意分野／機能	備考
混元（Hunyuan）	テンセント	画像→動画／口パク／ダンス生成	体験版あり、精細な動作再現
可灵（Kling）	快手AI	長尺映像生成／3D認識	DiT構造、リアルな動作表現
通義万相（QWen)	アリババ	筆文字・水墨・火焔効果など	中国文化表現に長ける
PixVerse	ByteDance系	SNS向けショート動画	ユーザー4,000万人超
讯飛绘镜	科大讯飛	ストーリー生成／音声合成一体	法人向け導入が進む

Soraが映像のリアリティや物理的整合性の追求を重視し、没入型の映像体験を志向しているとしたら、中国勢のツールは「誰でもすぐに使える」ことを主眼に置いているかのようだ。音声同期、キャラクター生成、モーション合成など、実務向けの即戦力の機能が充実している。

**主要AI動画生成モデル比較表**
比較項目	OpenAI「Sora」	中国系モデル（混元／可灵など）
モデル構造	Diffusion × Transformer	DiT（Diffusion Transformer）など
特徴	物理演算・空間認識・没入感	アバター動作・音声同期・3D動作生成
入力形式	テキスト（Text-to-Video）	画像＋音声＋テキストの統合入力
表現アプローチ	映像の一貫性とリアリズム	実用性とキャラ主導表現
出力長さ	最大1分超（現在は限定）	短尺（5～10秒）～長尺も可能
商用展開	研究段階・限定公開中	商用化進行中／クラウド提供

生成AIの導入は、教育、広告、eコマース、行政PRなど、さまざまな分野で現実のものとなっている。企業ユーザーだけでなく一般のクリエイターにも広く開放され、映像制作の間口は大きく広がった。

映像を“描く”力が解き放たれた今、主導権は単に技術力の優劣だけでなく、「誰が物語を語り、どう届けるか」にかかっている。かつて絵筆を握っていたのは画家だった。今、その筆は、誰の手にも渡ろうとしている。（編集：耕雲）

参考