株式会社STSデジタル

〒102-0083 東京都千代田区麹町5-3-23

【ライティング解体新書】#2-AIを使わずAIのように文字に起こせ

執筆者:ウメザワマサユキ
株式会社STSデジタル所属のライター。ファッション誌/映画メディアなどのフリーライターを経て入社。主な担当ジャンルはビジネス(採用)・芸能・ホビー・文芸など。

インタビューライターの地味な業務のなかで唯一華がある気がする「取材」が終われば、とうとう執筆作業です。取材に録った音源やオンライン取材の録画がある場合、執筆作業は大きく2つの工程に分けることができます。

  1. 文字起こし
  2. 原稿作成

今回は、執筆作業の入口である「文字起こし」について書いていきます。

■AIツール、使う? 使わない?

ChatGPTなど生成AIの登場により、ビジネスや生活のあらゆる面が大きな変化の渦中にあるのが現代です。
生成AI技術の進歩があまりに速すぎるため、法整備などなど人間のほうが追いついておらず、クリエイターのあいだでは何かと話題(問題)になる生成AIですが、使い方さえ適切ならばこんなに便利で面白いものはないだろうなというのが私個人の見解です。(きっとあなたもジブリ風のイラスト変換で遊んでみたこと、あると思います)

特に今回のテーマである「文字起こし」というやつは、もはや人間の作業ではなく、たいていのライターがAIにやらせているんじゃないかなと思います。
たとえば、「Notta」のようなAI文字起こしツールは音源データを読み込ませたらあとは勝手にテキスト化してくれますし、「PLAUD NOTE」「AutoMemo」のようにボイスレコーダーそのものにAIが搭載されている優れモノも出回っています。

ケムール
村田らむの”裏・歳時記2023”【閲覧注意】スマホで旅する異界案内~AIにオカルトは宿るのか?~ AIでAOKIGAHARA (青木ヶ原)を描いてもらうと、定期的に同一人物っぽい女性が現れる。 pi […]
(2023年の記事ですが、当時、ルポライター・漫画家の村田らむさんは「AutoMemo S」を使っていたみたいですね。値段が高い!!)

実際やってみると分かるんですが、文字起こしというのは非常にめんどくさいのです。

ぶわぁーっと人が喋る勢いでタイピングし続けるのはけっこう疲れますし、誤変換なんかしてしまえば一気に置いていかれて何度も音源を巻き戻す羽目になるし……。そもそも何らかの創造性が発揮されるような作業ではないので、面白くもない。
そりゃAIに関わらず自分以外のだれかに任せられるなら、どんなライターも諸手を挙げて歓迎することでしょう。

じゃあお前も使うんだな? という話ですが、実は僕、AIツールは使わず未だ人力で文字起こしをしているレガシーなライターなのです。

■文字起こしは“記憶の解凍作業”を兼ねる

僕がAI文字起こしを使わない理由はいくつかあるのですが、1番大きな理由は最終アウトプット(=原稿)のクオリティを大きく左右すると思っているからです。

もちろんこれは文字起こしをAIでやっているライターの原稿は質が低いというわけではありません。
僕個人が抱える諸々の事情や感覚によって、「僕が書くなら文字起こしは自分でやったほうがいいと思っている」というだけの話です。

   ◇

ありがたいことに、原稿の形式を問わなければ、僕個人だけに限ってもだいたい20本弱/月の依頼をいただいています。僕は土日休みの会社員なので月の稼働日はおよそ20日前後。つまり1日1本ペースで原稿を書かないと〆切爆死という、なかなかに地獄のスケジュールで生きています。
もちろんすべての原稿にインタビューが発生するわけではありませんし、原稿の形式や長さや複雑さなどの違いによって執筆にかかる時間もまちまちですが、1日1本ずっと執筆に集中していられるかと言えばそんなことはなく、打ち合わせがあったり取材があったり事務作業があったり資料作りがあったりと他作業に時間を取られることになるので、純粋な執筆時間はもっと少ないです。

そのためまま起こるのが、取材から執筆作業の開始までに時間が空くという現象。

つまり「ようやく落ち着いて書けるぞ」と思ったときにはその他の業務に忙殺されて、取材時に見聞きしたはずのディテールはすっかり色褪せているのです。
ちなみに、そもそもの要件や記事の目的、取材中に飛び交ったキーワードや骨子くらいは覚えていますし、メモにも取ってあります。ですが、ぽろっと付け加えるように言っていた面白い発言や声のトーンによる微妙なニュアンスの違いまでを事細かに記憶し続けているのは難しく、執筆作業に入るときには「あのとき(取材時)のエモが消えている」なんてことも少なくないのです。

プルーストさながらに、僕は文字起こしをしながら失われた時を求めていきます。

たとえば「そうですね。私は面接時に女性の活躍について話を伺い、この会社に入社したいと思うようになりました」という発言は、AI文字起こしツールだと「そうですね。私は面接時に女性の活躍について話を伺い、この会社に入社したいと思うようになりました」というテキストにしかなりません。

でも実際は
「そうですねぇ。私は面接時にぃ~、女性の活躍?について話を伺い、この会社に入社したーいと思うようにぃ~、なりましたぁー」
とちょい怠そうに喋っていたかもしれないし、
「そうですねッ!! 私はッ、面接時に女性の活躍について話を伺い、この会社に入社したいッ!!!! と思うようになりましたァッ!!」
と力感がやばかったかもしれない。

これはあくまで極端な例ですし、もちろん「……」や「ッ」や「!!」を使って文字起こしすることもありませんが、僕は文字起こしをそういう細かなニュアンスを思い出したり再確認したりしていく「執筆前の準備運動」として位置づけています。

これが、時間と手間のかかる文字起こしをわざわざ自分の手でやっている理由です。
日に日にAIの文字起こし精度も向上しているでしょうし、今よりも多い本数の原稿を書くことになれば僕もAI文字起こしツールの利用を検討する必要があるかもしれませんが、たぶんそれはまだもう少し先のことだと思います。

■言葉遣いや言い回しにこそ“味”が出る

これまでに何らかのインタビュー記事を読んだときのことを思い出してください。「こんなに自分の考えを理路整然と話せてすごいなぁ」と思ったことはありませんか?

僕はめっちゃあります。

ですが、それはたいていの場合まやかしです。
講演会などある種の公の場で喋り慣れているであろう大学教授や、言葉ひとつで爆笑を巻き起こす芸人ですら、インタビュー時にはあんなに理路整然と喋ったりはしていません。

たとえば主語がなかったり、目的語がなかったりなんてことはザラですし、語順がはちゃめちゃ、話題があちこちに飛んでいくなんてこともよくあります。

でも不思議なことに、それでも話しているときは通じます。あまりに当たり前にやっているので忘れがちですが、会話というのはかなり高度なコミュニケーションです。私たちは特に意識することもなく、喋っている言葉以外にも、発言と発言の間、その場の空気やコンテキスト、身振り手振りなどさまざまな情報から相手の意味や意図を読み取っています。

ところが、読み物になると話は全く別。
たとえば、プロ野球チームの監督に向けた試合直後の一問一答を見ていきます。これは実際のインタビューなどと比べてみると分かる通り、(おそらく報道のスピード感を優先しているため)取材時の発言が本当にそのまま記事としてテキストになっているいい例です。

引用元:【鯉将一問一答】広島・新井貴浩監督、16日のメンバー交換時について謝罪「私がとった行動に対して不快に思われたファンの方、心配していただいたファンの方には申し訳ない」 – サンスポ

たとえば「私のミスです。自分のミスです」「あそこは自分のミスです」というくり返しは、インタビュー記事として再構成される場合にはまず間違いなく1回だけになるはずです。また、「あれだけど」はパッと一読しただけだと「どれやねん」と突っ込みたくなるような、指し示す先が発言中にはない指示語ですし、「勝負できるチャンスあると聞いてたからね」は「誰に」というのが抜けています(ある程度野球に詳しければ文脈からこれらの内容を類推することは可能)。
そもそも、「――4番末包選手の打席で2死だった」という質問のほうも、会話の流れで出てきた発話であり、どんな意図がある質問なのかはかなり曖昧です。

言わずもがなプロ野球選手は取材される経験も豊富ですし、監督ともなればシーズン中は必ず毎試合コメントを求められる存在です。また、インタビュワーはマスメディアで活躍する記者であり、彼らもまた毎日毎日いろいろな人に話を聞くインタビューのプロです。そんな人たちであっても、会話のなかでは余計なくり返しや何を指しているのか分かりづらい言葉などを連発します(が、会話としては問題なく成り立つのです)。

そのため、引用した記事のような例外はありますが、インタビュー記事の最終アウトプットとして、発言がそのまんまというのは質の高い読み物だとは言いがたい出来栄えです。

ですが、これこそ文字起こしの肝。
文字起こしをしていく場合は、なるべくそのまま文字に起こします

正直なところ、「私のミスです。自分のミスです」「あれは自分のミスです」と文字起こしのなかで3回も同じ台詞をタイピングするのはめんどうです。ですが、3回もくり返すくらいですから、相当な責任を感じているんだなということが想像できます。なので、とりあえず3回とも文字に起こしておきます。これにより、インタビュー対象の人物像について「責任感が強いのかな」とか「仲間(部下)を庇う男気ある人なのかな」といった肉付けができるようになります。

また、言葉遣いや言い回しも同様です。

たとえば、もし会話の途中で笑っていれば「(笑)」とか「あはは」とかも起こしておきますし、「めっちゃ感動しちゃったんだよね、俺。ジョーカーが最後、車のボンネットで立ち上がるとこさ」と話していれば、とりあえず一言一句そのまま書き出します。
上記の例の場合、本番の原稿を書く際には掲載媒体やクライアントの希望に合わせて「僕はジョーカーが車のボンネットに立ち上がる最後のシーンにとても感動しました」などと編集が入る可能性はありますが、元の発言のほうが「なんかこの人めっちゃ感動したんだな」と伝わりやすいはずと、僕は思っています。

このように、言葉遣いや言い回しには言葉の節々からにじみ出る感情や、発言者のキャラクターがかなり色濃く反映されます。
タイピングが大変なのでつい発言を簡略して要約したくなったり、要素だけを抜き出したくなったりもしますが、そこはグッと堪えて、可能な限り一言一句そのまま文字に起こしていきます。AIは使わないと前半で書きましたが、文字起こしにおいては、さながらAIのように淡々と正しく音源をテキストにしていくことが大切なのです。

   ◇

そもそもインタビュー記事には、「人を魅せることができる」という強みがあります。
単なる情報伝達のテキストではなく、取材対象者の人間性やキャラクターが伝わる記事を書きあげることこそ、インタビューライターの醍醐味です。もちろん、文字起こしの段階でそういう個性を削ぎ落しているようでは、その責任は果たせません。

では、面倒だが正確な文字起こしを終えて揃った素材を使い、どうやって記事を作っていくのか。
次回はとうとう本丸――「記事の書き方(原稿作成)」について頑張って書いてみようと思います。