ChatGPTによる精度98%の異常に高性能なAI文字起こしソフトで、動画から記事を一瞬で作る方法(中嶋 よしふみ)

シェアーズカフェ

ChatGPTによるAI騒動が勃発中。

4月10日、高性能なAIとして話題のChatGPT(チャットジーピーティー)を公開しているオープンエーアイ社のサム・アルトマンCEOが日本を訪れた。岸田総理と首相官邸で面会し、AIの活用やメリットデメリットについて意見を交換、G7のトップとしては初の会合として大きく報じられている。

ChatGPTは昨年11月に公開されるとその性能の高さから大きな反響を呼んだ。1月には利用者が1億人を超えたと一部で報じられ、サム・アルトマンCEOによれば日本のユーザーは100万人を超えているという。

大きく話題になる一方で、イタリアでは個人情報の保護やデータ利用の透明性の問題から、3月末には利用が一時的に禁止され、1ヵ月ほど経過した4月28日にやっと使用禁止が解除された。

ChatGPTの元になっているAI技術のGPT-4について「これ以上強力なAIシステムの開発・運用を6か月間停止すべき」との声明が、AIの安全性について研究する団体「Future of Life Institute」によって出された。この声明には電気自動車のテスラやツイッターのオーナーとして知られるイーロン・マスク、アップルの共同創業者であるスティーブ・ウォズニアックなど、著名人らが署名している事でも話題となっている。

もっとも、この声明についてはオープンエーアイ社に出資しAI分野で先行しているマイクロソフトへのけん制、あるいは妨害としか見えない側面も大きい。AIでマイクロソフトに出し抜かれたと言われているGoogleについても、13年間同社に在籍した元社員でAIを研究してきたメレディス・ウィテカー氏が「正確性も安全性もわからない実験的な技術を公開する事は無責任で無謀」とオープンエーアイ社を厳しく批判している。

国内の大学でも論文の執筆にAIを使わないようにとお達しが出るなど、AIをめぐってはここ数か月は「大騒動」の一言だ。

とはいえ、多くの人の関心は「AIでなんか得するの?」という、この一点だけだろう。

ホワイトカラーの仕事が消えると過大なほど大きく評価される一方で、ウソ情報を平気で答える、まだ人間には遠く及ばないなど、評価も様々だ。

FPとして活動する筆者も、AIで相談やアドバイス、執筆の仕事がなくなってしまえば大ダメージという事になるが、現状では「どう仕事に活かすか?」という事しか考えていない。

筆者にとって今のところ最も役に立つ使い方が、動画や音声からの文字起こしだ。これまでも文字起こしソフトはあったものの、そのほとんどが使い物にならないゴミレベルの物ばかりだった。それがChatGPTの技術を活用した文字起こしソフトは異常といっても良いほど性能が高い。体感精度としては98%くらいの正確さだ。当然、筆者もすでに活用している。

音声を文字起こししたいというニーズは、オンラインの会議や打合せが増えた現在、極めて多い。インタビューやセミナーの文字起こしも昔から一定のニーズがある。その一方で文字起こしはとにかく時間がかかる上に非常に面倒臭い。誰かに依頼すれば費用も安くはない。それを一瞬で済ませてくれるソフトがある、しかも無料、といったらおそらく飛びつく人は多いだろう。

ITに関する知識もほとんど不要で、スマホやパソコンが使えて、SNSやネット通販を日常的に利用している人なら簡単に使えるレベルだ。とはいえいくつか注意点があり、間違えると情報流出にもつながりかねない。

セミナーやレッスンを多数行っているFPとして、そしてコンテンツを作成するウェブメディア編集長として、この高性能な文字起こしソフトの使い方と注意点、活用方法を考えてみたい。

Thai Liang Lim/iStock

「ソフト」の名前は『Glarity-Summary for Google/YouTube(ChatGPT)』

「文字起こしのソフト」と書いたが、今回紹介するGlarity Summaryは正確に言えばChromeの拡張機能だ。ブラウザでシェア1位のChromeに、便利な機能を一瞬で追加するのが拡張機能だ。これはChrome ウェブストアで無料配布されていて名前をググればすぐに見つかる。そこで「Chromeに追加」というボタンを押すだけだ。使ってみてイマイチなら削除も一瞬、お試しも簡単でもちろん無料だ。

ChatGPTで文字起こしはなかったの?と言われそうだが、Glarity SummaryはChatGPTのAI機能を使っている、という説明になる。

文字起こしの精度はズームで録画したセミナーなら95%くらい……と今までは説明していたが98%くらいと言っても良い。正しく文字起こしされていないのは喋り方が不明瞭な部分だけで、耳で聞いても聞き取りにくい部分くらいだ。

文字起こしが簡単に出来れば、議事録作成やインタビュー、セミナー等を記事にして自社サイトに載せることも簡単だ。現在なら企業の採用ページや商品紹介、顧客インタビューで動画を文字にする需要も多い。オウンドメディアやメルマガ、公式Lineなど文字が必要なコンテンツも多岐にわたる。インタビューを文字にしたいのはライターだけではない。

動画のままでも良いじゃんと思った人もいるかもしれないが、動画の情報量は極めて少ない。2時間映画のシナリオは原稿用紙で約120枚程度、48000文字だ。ウェブメディアの記事に換算すると10本から15本程度になるだろう。

15本の記事を読むには2時間もかからない。動画と活字とどちらを好むか人それぞれだが、両方を載せておけばユーザーは好きな方を選べる。動画が効果的な場合はもちろんそれでいいが、シンプルに情報を伝えたいだけなら文字の方が優れている事も多い。イマドキの言い方ならタイムパフォーマンス、タイパでは文字が優れている。

そんなに高性能ならこれから動画を録画して文字越こしをしよう、という人はオンライン会議アプリ・ズームの録画機能を使えば簡単だ。スマホはもちろん、パソコンなら2000円程度のマイク付きウェブカメラを接続すれば、手軽で優秀な録画ソフトとして使える。ズームは1人でしゃべっても録画は可能なため、この拡張機能と組み合わせれば「音声入力ソフト」にもなる(スマホの音声入力との違いは後述)。

ただし、Glarity Summaryは便利な一方で危険な「トラップ」もある。一部では話題のためすでに使っている人もいると思うが注意点も多い。

動画はYouTubeにアップロード。でも公開の必要はナシ。

Chromeの拡張機能である「Glarity Summary」の最大の特徴は、YouTubeの動画を文字越こしする機能にある。つまり文字起こしをするにはYouTubeに動画をアップする必要がある。

YouTubeが未経験の人は面倒臭いと思ったかもしれないが、文字起こしの面倒臭さの方がよっぽど上と考えれば使わない手は無い。YouTubeにアカウントを作成して動画をアップロードするまでの流れはブログを書く程度の難易度だ。

もちろん公開したくない動画でも使える。設定は非公開=自分自身のアカウントだけでみられる、あるいは限定公開=URLを知っている人だけが見られる状態で動画をアップロードすればいい。仕事で使ったり、外注先も含めて複数人で作業する場合は限定公開の方が便利かもしれない。

文字起こしの準備はこれで終わりだ。

あとはGlarity Summaryを入れたChromeで、文字起こしをしたい動画の再生画面にアクセスするだけだ。すると画面右側に拡張機能が表示される(図参照)。この時点でChatGPTにログインが必要となる。

ChatGPTをまだ使ったことが無い人はアカウントを作る必要がある。とはいえ、これもSNSとかGoogleのアカウントを作るのと同じ程度で極めて簡単だ。

細かい操作方法は省くが、特に説明を読まなくても使えるくらいは手軽で簡単、という事は強調しておきたい。

実際の画面と起こした文章の手直しについて。

スクリーンショットの通り、再生画面の右側に文字起こしした文章が表示されている。この動画は1.5時間程度の執筆指導を行うセミナー動画だが、これくらい長くても問題なく全て文字起こしされる。あとは文字起こしされた文章をワードやGoogleドキュメントに張り付ければ終わりとなる。

この動画の文字数は1.5時間のセミナーで31700文字だった。1分あたり352文字とかなり早口で話している。通常は1分あたり200~300文字程度が目安となるが、これだけ長い動画の文字起こしをやるとなれば相当に面倒くさい。外注も可能だがそれなりに費用もかかる。これが無料なら文章にしたい動画を多数持ってる人にとっては神アプリと言っても過言ではない。

完成した文字起こしについては、さすがに読みやすくするには句読点や改行を入れるなど手直しが必要となる。加えて、人の言葉はそのまま文章にすると決して読みやすくはない。

口グセやしゃべり言葉の語尾など同じ修正が多数ある場合は置き換え機能で修正すると楽だ。文字起こしでは「ケバ取り」と言ったりもするが、あー、えーなどの余計な言葉、言い間違い、その他文章にすると読みにくい部分や、上手く文字起こしされなかった部分は修正が必要となる。

固有名詞や同音異義語なども間違いやすい。例えば筆者の名前は中嶋だが、文字起こしでは中島となっている、といったケースだ。

こういった手直しすら面倒かもしれないが、それでも通常の文字起こしと比べて手間は1/100以下だ。もちろん、手直しが面倒な場合は外注するなり、企業ならばアルバイト等に任せてもいい。文字越こしの経験がゼロの人でも任せられるくらい難易度の低い作業だ。短い動画ならChatGPTで文章の補正も可能だが、さすがに長文は難しい。

このように非常に便利な拡張機能だが、知らないと極めて危ない注意点もいくつかある。

YouTubeの限定公開は「トラップ」に注意。

YouTubeへのアップロードは非公開か限定公開にすると良いと説明した。

限定公開の動画はURLが漏れない限り他の人は見られないが、YouTubeの「リスト」という機能で動画をリストに登録すると、何と恐ろしい事に限定公開の動画を誰でも見られる状況になる(公開されているリストの場合)。知らない人も多いと思うが完全にトラップだ。しかも動画をアップロードする際にリストに登録するか選択肢も出るので余計に危ない。

非公開の動画であっても、Googleのパスワードが流出したら当然見られてしまう。仕事で使うアカウントなら二段階認証はすでに常識だが、まだ導入していない人は即導入した方が良い。

流出はどんなに注意していても起こりうるため、文字起こしが終わったらすぐに動画は削除すべきだろう。

必ず切るべき機能は……。

Glarity Summaryは初期設定で「Chromeで検索をした内容を全てChatGPTで自動的に質問する」という設定になっている。文字起こしだけが目的の拡張機能ではないからだ。

これを知らないでいるとChatGPTの履歴が滅茶苦茶になる。文字起こしだけに使いたい人は拡張機能の設定で切っておく必要がある。

すぐに文字起こし出来ない?

YouTubeに動画をアップロードした直後は文字越こしが表示されず、翌日とか2.3日後にならないと表示されない、という謎のエラーが筆者には発生した。

最初は原因不明だったが、1分の短い動画なら数分後には文字起こしが表示された。要するに長時間の動画はすぐに文字起こし出来ないようだ(動画の長さと文字起こしが表示されるまでの正確な時間は不明)。人力より確実に早くて楽なことは間違いないが、すぐに文字起こしが出来ると思っていると困る可能性もあるので注意が必要だ。

マイクは少し良い物を。

筆者の手持ちの動画では、かなり昔に撮影した音声が悪い動画は上手く文字起こしが出来なかった。これはスピーカーから出た音をビデオカメラで撮影したような、人の耳で聞いても明らかに聞きにくいレベルの動画なのである意味仕方がない。ズームセミナーを録画した程度ならまず問題は無いだろう。

ただ、今後Glarity Summaryをあてにして文字起こしをするならちょっと良いマイクを使うと良い。ウェブカメラに付属しているマイクでも十分だと思うが、文字起こしの精度を少しでも上げて手間を減らしたいのならマイクも重要だ。

筆者の場合はコンデンサマイクという感度の良いマイクを使っている。USB接続なので使い方も難しくはなく、卓上スタンド込みで5000円程度と格安なものだ。歌や演奏のためでなければ高いものを使う必要は無い。

なお、背景に音楽をかけたり雑音のあるカフェでの録画も当然避けた方が良い。

ChatGPTは情報流出が怖い?

ChatGPTによる情報流出が怖い人もいるだろう。機密情報は入力禁止になっている企業もすでにある。

流出リスクがどこまで高いかは現状では不明だが、文字起こしについても流出すると本当に危ないものは使わないのが当然だが、公開する文章の文字越こしならあまり気にしなくても良いだろう。一律禁止とか何でもOKではなく、動画の内容に応じて使い分ければいい。

心配な場合はChatGPTで情報収集のオプトアウト(情報収集を拒否する設定)を申請しておくといい。

やりがちなミスとして、会社で使う場合は個人のChatGPTのアカウントをGlarity Summaryで使うのは絶対に不可だ。拡張機能でログインした後にChatGPTのページに行くと、当然の事ながらログインしている状態のため、アカウント保有者の質問履歴が他の人に丸見えとなってしまう。

音声入力はスマホを使った方が良い?

そんなに高性能なら音声入力に使おうか、という人もいるかもしれないが、それならスマホの音声入力をそのまま使った方が楽だ。

iPhoneもアンドロイドも音声入力は超高性能で、多数の著書やコラムを執筆している経済学者の野口悠紀雄氏は「寝起きにスマホで音声入力をすると、文字通り朝飯前に記事が書ける」という。

スマホの音声入力で文章を書いている人は少ないと思うが、こちらもおそらくビビるレベルで性能が高い。とはいえ、この拡張機能の良いところは「動画から文字起こしが出来る事」なので、そもそも用途が違う。スマホの音声入力とは使い分けた方が良い。

Glarity Summaryの活用方法は「執筆が苦手な人による文字コンテンツの作成」

世の中には書くのが上手い人と喋るのが上手い人がいる。両方とも上手い人は少数派だろう。

筆者はウェブメディア編集長で執筆指導の勉強会もやっているくらいなので、当然書く方が得意だ。仕事としてやっているので人並み以上に出来る自信もある。ただ、しゃべる方はとにかく苦手で人前に立つことも昔は大嫌いだった。

現在はセミナーも仕事としてやっているため苦手と言ってる場合ではなく、数をこなしたこともあり人並みに話せる程度には克服したが、それでも執筆とは到底比べられない低水準だろう。話し方を教えることもまず不可能だ。

その逆に喋るのは得意だけど書くのが苦手な人、そういう人にとってはGlarity Summaryは文章を作るために死ぬほど役に立つ。さらに言えば喋ることが苦手でも、喋っているうちに言いたかった事がやっと出てくる、という事もある。

それならスマホの音声入力でも良んじゃね?という事になりそうだが、音声入力で文章を作るのも案外難しい。少なくとも動画の文字起こしと音声入力による執筆は全く別物だ。後述するインタビューの文字起こしをスマホを使った音声入力でリアルタイムで行うのはまず無理だ。

正しく文字起こしされているか確認しながら喋ることはそれなりに面倒で慣れも必要となる。「スマホの音声入力はキーボード代わり」と言えば、動画の文字起こしと似て非なるモノであることは分かってもらえるだろう。

ではどのように使えば一番役に立つか?

ウェビナーの文字起こしに役立つことは当然として、例えば経営者が自社サイトにコンテンツをもっと増やしたいと考えている場合であれば、アシスタントや他の社員にインタビューをさせて、その場面をズームで録画する、そして動画を文字起こしして記事の形にまとめる。いわゆる「口述筆記」的に使う事もこの拡張機能なら可能となる。

ただ、その場合も長時間にわたって取りとめなく話をすると文字起こしの量が膨大になって整理の手間が過剰に増える。従って、例えば30分程度と時間を決めて、事前にテーマや質問事項も決めて、そのうえで多少話が脱線してもOK、とルールを決めてざっくり事前の準備もしておけばコンテンツも作りやすくなる。

採用ページならば人事や現場の社員に、導入事例なら顧客にインタビューをする、といった具合に使い方次第で作成可能なコンテンツの幅は無限に広がる。

今回の記事はGlarity Summaryを前提にしているが、今後はもっと便利で高性能な文字起こしが可能なアプリも出てくるだろう。手直しが一切不要な文字起こしが出来るアプリや、発言者ごとに名前を割り振って文字越こしをするようなアプリだ。ただ、その場合でも活用方法はGlarity-Summaryと全く同じという説明になる。ぜひ参考にして頂ければと思う。

中嶋 よしふみ  FP シェアーズカフェ・オンライン編集長
保険を売らず有料相談を提供するFP。共働きの夫婦向けに住宅を中心として保険・投資・家計・年金までトータルでプライベートレッスンを提供中。「損得よりリスクと資金繰り」がモットー。東洋経済・プレジデント・ITmediaビジネスオンライン・日経DUAL等多数のメディアで連載、執筆。新聞/雑誌/テレビ/ラジオ等に出演、取材協力多数。士業・専門家が集うウェブメディア、シェアーズカフェ・オンラインの編集長、ビジネスライティング勉強会の講師を務める。著書に「住宅ローンのしあわせな借り方、返し方(日経BP)」。

【関連記事】

漫画「ドラゴン桜」の国語教師に学ぶ、読まれる文章の書き方。(中嶋よしふみ SCOL編集長)
「ミスチルの歌は恋愛あるある」レイザーラモンRGに学ぶ、読まれるネタの選び方
ガイアの夜明けに学ぶ、読まれる文章の書き方
過去最高の税収68兆円より社会保険料が多い理由。(中嶋よしふみ ファイナンシャルプランナー)
変動金利は危険なのか? (中嶋よしふみ ファイナンシャルプランナー)


編集部より:この記事は「シェアーズカフェ・オンライン」2023年5月2日のエントリーより転載させていただきました。オリジナル原稿を読みたい方はシェアーズカフェ・オンラインをご覧ください。