音声入力、どれにするか問題

ウェブテック

Windowsで自作の音声入力アプリを使っている ASI(Anywhere Speech Input)という、Pythonで書いたシンプルなものだ グローバルショートカットでマイクを起動し、話した音声をGoogle Cloud Speech-to-Text APIに投げて、返ってきたテキストをクリップボード経由でアクティブウィンドウに流し込む

手元だけで動くし、挙動も軽くて気に入っていたのだが、最近どうも精度に満足がいかなくなってきた 月500円ほどのAPI課金が発生している割に、誤変換が多く、結局手で直す手間が減らない

これをどう評価し、どこへ移行すべきか 頭の中で「音声入力、どれにするか問題」が浮上していた


候補として考えたのはいくつかある

AmiVoice

日本語の音声認識では昔から定評のあるエンジン 月10ドル(約1,500円)ほどの予算でAPIが使える 日本語の口語や専門用語に対する強さは抜群で、自作ASIのバックエンドをGoogleからAmiVoiceに差し替えるだけで劇的な改善が見込めるはずだった

AquaVoice

最近一部で話題の、AIを搭載した高機能音声エディタ 画面上のテキストを読み取って文脈を推測する機能(ディープコンテキスト)や、音声コマンドで「今の文を消して」「もっとフランクなトーンにして」と編集できる機能が備わっている らしい、、けどどうなのか?他のツール?

OpenAIのPlusプラン OpenAIのPlusプラン($20)に入ればシステムワイドな音声入力が使えるという噂を聞き、それならChatGPTのサブスクに入ろうかと考えた おそらく、whisperという音声入力のAPIを流用してるみたい、 LLM、chatGPT、codexに合わせて、whisperもバンドルされるっていうのは、かなりお得、やっぱり、制限まで使い倒せる人にとっては、openAIのこの$20プランて、コスパぶっ壊れ最強だな、、 あと、環境imagen2が画像生成でも、geminiより1段良いしね

Windows標準の音声入力(Win + H)

OSに最初から組み込まれている機能 裏ではAzureの音声認識エンジンが動いている


まずはテストとして、最近の女性アイドルシーンに関するそこそこ固有名詞が入り混じる文章を声で吹き込んでみた 乃木坂、櫻坂、日向坂といった坂道シリーズから、イコラブ、ノイミー、ニアジョイ、そしてフルーツジッパーやキャンディチューンまで、表記揺れやカタカナ混じりが頻発するテキストだ

これをWindows標準の Win + H で入力してみたところ、驚くべき結果になった

「指原莉乃」「乃木坂」「櫻坂」「イコラブ」「フルーツジッパー」といった固有名詞が、一切の事前登録なしでほぼ完璧に一発で漢字・カタカナ変換された 音声に追従するスピードも極めて速く、ラグをほとんど感じない

もちろん完璧ではない

  • 一強時代 → 一興時代
  • 続いています → ついています
  • ≒JOYは → ニアリーイコールjoifa

こうした誤変換や、英語とカタカナが混ざる部分のアルファベットの乱れ(joifaなど)はあったが、十分に実用レベルの変換精度だ


この結果を見て、少し立ち止まって考えた

自作のASIアプリのバックエンドをOpenAIのWhisper API(1分0.006ドルと超激安で精度も最高峰)に書き換えるか、あるいはAmiVoiceを移植するか コードを書けば確かに現状のASIはもっと進化する

だが、目の前にある Win + H を叩いた時の「これでいいじゃないか」という感覚が勝ってしまった

月額0円 コードのメンテナンスコスト0 OS標準機能なので起動もショートカット一つで一瞬

自作ASIでGoogleのAPIを叩いて月500円を払い、精度にイライラしていた時間が、少しバカらしく思えてくるほどのクリーンな体験だった


しばらく Win + Hで運用してみようと思う、 たぶん、予想としては、openAIのサブスク入る未来の自分がいそう、 やっぱ、総合としてのバンドルが最高だもんな、$20で個人運用するのに、codexと、whisper、imagen2あったらなんでもできる

追記、、

エディタの横にAIが立っていること

さきほど「音声入力はWindows標準の Win + H でいいじゃないか」という記事を書いた直後、気になってGoogleドキュメントの音声入力も試してみた

Chromeブラウザを立ち上げて、Googleドキュメントを開き、マイクをオンにする 同じようにアイドルシーンのスクリプトを読み上げ、さらに意地悪なテストケースとして「NiziU」「ME:I」「IS:SUE」といった記号混じりの最新グループ名や、「キンブレ」「アクスタ」「推し活」といったファンの専門用語を追加してみた

結果、Googleの認識エンジンはMicrosoftのAzureとは全く異なるキャラクターを見せた

驚いたのは、グループ名の自動整形能力だ Azureが「フォーティーシックス」とカタカナで吐き出した部分を、Googleは文脈から「乃木坂46」「櫻坂46」と数字を含めた正しい表記に自動で直してくる 日本語の文脈判断も極めて滑らかで、Azureが「卒業とかに送り返しながらも」と誤認した部分を「卒業と加入を繰り返しながらも」と完璧にリライトしてきた

だが、弱点もある

「指原莉乃さん」を「さらにのさん」と聞き落としたり、最新の「NiziU」を「20」、「ME:I」を「Mii」、「IS:SUE」を「一種」と誤変換した 人名や最新の記号表記には、Azureのほうが強かった


長文をダラダラと書き殴るならGoogleドキュメントのほうが手直しが少なくて済む、というのは確かだ しかし、テストを終えたあとに残ったのは「わざわざChromeを立ち上げて、ドキュメントを開くの、めちゃくちゃ面倒だな」という感情だった

この摩擦(フライトノイズ)の正体について考えていた

本当に心地よいのは、自分が今開いているエディタ(VS CodeやCursor)のキャンバスに直接文字を流し込み、そのすぐ横にいるAIエージェントに「ここ、ちょっと不備があるから整形して」と頼むフローなのだ

今回、デスクトップアプリ型のエージェントを使ってみて、そのメリットとデメリットがクリアに見えた

独立したデスクトップアプリは、綺麗なGUIで開発計画や実行結果をビジュアルに見せてくれるという良さがある 一方で、それは作業をAIに「丸投げ」する感覚に近い AIが裏のブラックボックスで勝手に作業を終え、それを報告してくるような距離感だ

私たちが本当に求めているのは、丸投げの自動化ではないのではないか


エディタという「自分の手が触れている道具」の上で、1行ずつ足し引きをし、自分の目で構造を確認しながら進めること その手触りがあるからこそ、コードを書くのも、文章を紡ぐのも「自分の仕事」として血が通う

AIは、そのエディタのキャンバスを奪い取る存在であってはならない エディタのすぐ横に立ち、書き手がベタ書きした粗削りな言葉を、一緒にリファクタリングしてくれる「優秀な編集者」であるべきだ

この「手触り」と「AIとの距離感」の大切さは、プログラムのコーディングだけでなく、ブログの文章作成においても全く同じだった

自分が主体的に言葉を足し引きしているという手応えを失わないこと そのためには、巨大なデスクトップアプリの画面ではなく、シンプルなテキストエディタの横にAIが立っている、というあの極小の距離感が一番正しいのだと思う

そんなことを考えながら、やはりエディタを開いてこの原稿を整理している

← 一覧に戻る
← SKE 相川暖花さん githubレポジトリ、プロジェクトなど... →