GoogleがPixel4向けに出しているリアルタイムな書き起こし可能なレコーダーアプリがダウンロードできるように公開されていたので自分のスマホに入れていました。Googleさんお得意の機械学習で精度を高めているのはもちろんですが、大きな特徴はその肝になる学習データを端末の中に保存できるところです。
いわゆるAIと言われる技術は、スマホで入力されるテキスト、写真や音などのあらゆるデータをもとに機械が分析(思考)して人間のほしい結果を返してくれるのですが、この分析(思考)させるための学習データセット(思考回路のようなもの)を機械が自分で学ぶのが大きな特徴で、最近一気にAIと言われ始めたのはこの”自分で学習することができるようになった”点が大きいらしいです。
例えば猫を見分けるAIを作ろうとしたとき、今までは猫の見分け方をある程度人間が教える必要がありましたが、このやり方だとAIができることは人が教えられる範囲=(人でもできる且つ、それを教えられる範囲)に限られてしまいますが、この新しい方法だと機械が猫の写真を膨大に分析することで、どこをポイントにして猫かどうか見分ければいいかを自分で学習します。教える手間が省けるのはもちろん、人間でもわからないところも機械が分析してくれるのも大きなポイントです。
しかし、このデータセットがとても大きいので、スマホの中に入れてそのなかで考えさせるよりも、サーバー上に音声データを送って分析結果をスマホに返すほうが電池にも優しいといった背景からずっとクラウドとの通信が不可欠でした。
そこでGoogleはこのデータを小さく、スマホでも高速に扱えるように作り変えたことで、端末のなかに保存して通信なしで実行することが可能になりました。なのでオフラインでも変換ができます。
The new Recorder app uses speech recognition and AI to transcribe lectures, meetings, interviews and more—and makes them easy for you to find later. (English only right now, with more languages to come.) #madebygoogle pic.twitter.com/fdKRItuS4b
— Google (@Google) October 15, 2019
上のTwitterの音声の一部を認識させた結果です。Pixelのマイクに最適化されてると思うのですが、違うスマホでもかなり精度良く起こせるようになっています。特定の文字をクリックすると、その文字の部分の音声から再生されます。
このアプリ以外にもGoogleはカメラアプリをPixel Phoneにだけ出しています。それも無理やりインストールすれば使用はできるのでしょうが、Pixelのカメラに最適化されているので他のスマホにインストールしてもPixelのようにきれいな写真が取れるわけれはありません。
しかしマイクはカメラよりもハードの振れ幅が少ないと思うので、このアプリはできるだけ多くのスマホで使えるようにしてほしいです。