はじめに
こんにちは、Voicyでフロントエンドエンジニアをしているきーくん(@komura-c)です。
先日、Voicyパーソナリティ(配信者)の方向けに「AI切り抜き動画 β版」という機能をリリースしました。この記事では、機能開発に至った背景や開発の流れの中でやったことを紹介します。
AI切り抜き動画の機能について



はじめに、機能を簡単に紹介します。まず、パーソナリティの方が自分の音声コンテンツを選択すると、AIが文字起こしの内容を分析し、自動で盛り上がる箇所を選びます。そして、選ばれた箇所がテンプレートに当てはめられ、切り抜き動画として3つ提案されます。そのうち1つを選び、背景画像・動画を選択すると、最終的に合成されたものがダウンロードできるという流れになっています。
さらに詳細な説明については、こちらのプレスリリースをご覧ください。
開発に至った背景
Voicyでは音声コンテンツをもっと多くの人に届ける手段として、XやInstagramなど複数のSNSでの短尺動画での展開に注目していました。ただし、音声を動画化する際に、どこを切り抜くか、どう魅力を伝えるかは動画編集などにおいてコストが高く、制作ハードルの高いものだと考えます。そこで今回、AIを活用して話の盛り上がりポイントを自動抽出し、SNS投稿に適した短尺の切り抜き動画を手軽に生成できる機能を開発しました。
プロジェクトの体制
この機能は、Voicy社内で立ち上げられたAI関連機能開発プロジェクトチームによって開発されました。このチームは、PdM・デザイナー・エンジニア含む6名ほどのチームで生成AIを活用し、新機能の探索・検証・改善をしていくことが目的です。
やったこと
生成AIをフルに活用したプロトタイプの立ち上げと機能実装
はじめに、PdM主導でVercelのv0(自然言語のプロンプトベースでUIとコードを自動生成できるAIサービス)を活用しUIのプロトタイプを作成、チームに共有しました。
これによって、素早くどんなUIデザインになるのかのイメージがつき、実際に動かして試すことができました。
エンジニア側では、社内PCのローカル環境で動くサーバープログラムのプロトタイプを構築しました。これは音声の文字起こしから盛り上がりポイントをGemini(GoogleのAIモデル)が抽出して動画を生成するプログラムです。ClaudeCode(AIコーディングツール)をフルに活用して自然言語のみで作成しました。
このプロトタイプの高速な立ち上げによって、普段の開発よりも早く企画段階からすぐに概念検証(PoC)のステップを踏むことができ、UIデザインやどの程度の精度で盛り上がりの切り抜き箇所を自動抽出できるかなどを確かめることができました。
そして、実際の機能実装でもAIエージェントを活用しました。
フロントエンドでは、機能のほとんどの部分をClaudeCodeで実装し、簡単な文言修正や挙動の修正はDevin(AIエージェント)を利用しました。UI実装の部分は公式のFigma MCP(デザインツールFigmaのデスクトップアプリと連携できる機能)とClaudeCodeを利用し、次のようなプロンプトで該当箇所のデザインを生成しました。
${コンポーネント名などでコードの箇所を指定}をFigma-SSEで現在選択している範囲のデザインに修正してください。
バックエンドでは、動画生成機能の大部分をClaudeCodeで実装、ClaudeCodeにcurlのコマンドを許可するなどの工夫でAIを用いた自動テストを実行していました。
これらのAI活用によって、他の開発と並行しつつエンジニア2名で、開発開始から約1ヶ月でβ版の機能提供をすることができました。

α版からβ版のリリース
ある程度の安定性を確認した段階で、一部のパーソナリティ限定でα版を公開し、実際に利用してもらいフィードバックをいただくようにしました。多くの方から良いフィードバックをいただいて、β版リリースにつなげることができました。フィードバックから、背景画像・動画のアップロード機能の需要が高いことが分かり、機能追加を行なった上でβ版としてパーソナリティの方に全体公開しました。
個人的な学び・感想
やはり生成AIツールはプロトタイプの立ち上げが強いという実感を得られました。企画の段階からUIのプロトタイプとサーバープログラムのプロトタイプをすぐに作成したことによって、実装する前に実際の機能のイメージがつき、その後の実装がスムーズになったと思いました。また、生成AIをプロダクトに組み込むのが初めてでしたが、出力が安定しない課題なども、入力する文字起こしのテキストに沿った内容にプロンプトを修正する工夫やGeminiの構造化データ出力設定を利用することで、安定化させることができたのが学びでした。
おわりに
AI切り抜き動画はまだβ版ですが、パーソナリティの方の声を取り入れながら、引き続き改善を進めていきます。AIによるアシストを活かしつつ、誰でも手軽に魅力的な動画を生成できる体験を今後も強化していきたいと考えています。
最後まで読んでいただきありがとうございました!