奥さんが自分のメディアを持っていて日々サステナビリティや育児について発信しており、その一環で色々な方にインタビューをしています。
インタビューは録音した音源をもとに対話形式で書き起こすわけなのですが、これが毎回結構な手間らしい。既存のサービスもいくつかあるのですが、それなりにお金がかかる*1とわかりました。
で、ちょっと調べてみたところGoogle Cloud APIの一つであるSpeech To Textが使えそうだとわかったので、簡単なツールを作ってみることにしました。
- 実装
- Speech To Textの導入
- 句読点
- 話者の切り分け
- 発言時間
- チューニング
- 検証
- 処理時間
- 評価
- 金額
- まとめ
*1:例えば https://rimo.app/about/voice だと1時間2400円