レビュー
Pixel 4の革新は「オンデバイスAI」だ。Googleとスマホの未来
2019年10月22日 10:00
日本でも、Googleの最新スマートフォン「Pixel 4」シリーズが10月24日に発売される。発売にあわせてレビューをお届けするが、スケジュールにあまり余裕がなかったこともあり、カメラなどの詳細なレビューは他の記事にお任せしたい。
ここでは、Pixel 4/4 XLの特徴である「オンデバイスAI」に絞って機能をチェックしていくことにした。他のスマホと現状もっとも違うところである。
ただし、日本においてはまだ使えない機能もあり、「英語」ベースでの話が中心になる。しかし、Googleは日本語化も積極的に取り組んでおり、現状からでも「日本語化されるとなにが起きるのか」ということは十分に予想できる。
カメラ機能は発色改善で着実な進化
写真に触れないのはもったいないので、ちょっとだけ解説することにしよう。Pixel 4は2カメラ構成になり、光学望遠が2倍になった。ハードとしての変化はそこが一番大きい。
だが、もともとPixelは「ソフトによるデジタルズーム」画質でがんばっていた。そのため、光学望遠2倍の効果は、はっきりいってさほど大きくない。2カメラになった恩恵は、超広角を増やしたiPhone 11ほど大きくはない、というのが率直なところだ。他のAndroidでも、ハイエンドでは超広角の採用が進んでいることもあり、Pixel 4に超広角がなかったのは残念だ。実用性の面で弱い。
だが、Pixel 4とPixel 3では、カメラの画質は明確に向上している。特に、弱かった色再現性の面での改善が大きい。夜景モードなどでの「緑かぶり」が減り、より自然な色合いになったように思う。
ハードでなくソフト向上によるカメラの進化がPixelの、そしてGoogleの持ち味であり、それは今年も健在だ。色のノリの改善により、Pixelを含めたハイエンドカメラの競争は、より面白くなってきた。
東京駅を夜景モードで。色のノリはかなりiPhone 11とPixel 4が似てきて、自然な感じに。全体を明るく見せる力はPixel 4の方が上か
同じ場所からズームで。iPhone 11 Pro Maxは暗く写ってしまう。Pixel 3はデジタルズームのみなので画角が違う。意外とPixel 3でもデジタルズーム感は低く、健闘している
東京駅を夜景モードで正面から。「夜景っぽさ」はiPhone 11 Pro Maxが一番自然であるように思える。が、レンズのカバーガラスが原因と思われる内部反射のゴーストが映り込んでいる。iPhone 11はこれが目立つ。Pixel 3と4を比べると、明るさだけでなく自然さでもPixel 4の圧勝。
看板を夜景モードで。Pixel 3の弱点は、こうした時にとにかく緑かぶりが大きくて「冷たい」写真になりがちであること。だがPixel 4では大きく改善され、色合いがかなり自然になった。iPhone 11も同様に自然だ。
英語ならすぐに使える「オンデバイスAI」の実力
さて、レビューの本題だ。
Pixel 4では、内部のマシンラーニング推論処理が強化され、「オンデバイスAI」が導入された。簡単にいえば、Googleアシスタントなどの処理の大半をクラウドでなくローカルで処理するようになる。
ただし、現状では「英語の場合」だ。
音声アシスタントであるGoogleアシスタントも、その軸である音声認識モデルについても、Pixel 4のオンデバイスAI向けに機能刷新が行なわれている。ただし現状英語に限られる。新しいGoogleアシスタントの日本語での提供は、2020年春を予定している。
では、オンデバイスAIの力をまったく体験できないか、というとそうではない。
まず「顔認識」で体験できる。これがとにかく動作が速い。iPhone 11シリーズではFace IDの処理速度が速くなったが、それに勝るとも劣らない。ロックを外すために画面をスワイプする、という動作が不要なので、むしろPixel 4の方が手早いほどだ。正直指紋より好ましい。
「目をつぶっていても認識する」などの問題も指摘されているし、他のアプリから生体認証として使えていない、という問題もあるのだが、とにかく、「オンデバイスで顔認識をする速度が速い」ことはわかる。
もうひとつは、ちょっと裏技的な機能だ
オンデバイスAIでは音声認識をローカルで行なう。それは現状日本語ではできない。
そう、「日本ではできない」のではなく、「日本語ではできない」のだ。英語なら、日本のPixel 4でもできる。
「設定」内の「ユーザー補助」の中に「自動字幕起こし」という機能がある。これをオンにすると、オンデバイスAIの力の凄さがわかる。
なんと、デバイス内で流れたすべての音などを「テキスト化」するのだ。
YouTubeなどには、音声から自動的に字幕を作る機能がある。それがあらゆる「スマホ内で流れる音」で実現されている、と思ってもらえばいい。画像は著作権のことを考え、あえてYouTubeアプリでGoogleのカンファレンスを流したものだが、上がYouTubeの字幕で、下が「オンデバイスAIによる、ローカルでの文字起こし」である。これができるということは、あらゆる録音や動画、通話などがテキスト化できるということだ。
重ねていうが、この結果は現状「英語のみ」である。だが、これが日本語でできるようになるとしたらどうだろう? しかも通信には依存せず、である。
こうしたことは、今は音声のみで出来ている。だがそのうち、画像でも一部可能になるだろう。すべての画像の内容を認識するのは無理でも、画像からのテキスト認識なども行なえるはずだ。
こうしたことは、スマホを「人のアシスタント」と考えると、きわめて大きな変化だ。日本語で実現される日が楽しみだし、我々の生活をどう変えてくるのか、わくわくする。
ただしこの機能は、それなりに処理負荷が重いようだ。機能をオンにすると「消費電力が増える」と警告される。どのくらい消費するのか、ベンチマークをとる時間はなかったのだが、オンにしっぱなしで使うのは、まだ難しいかもしれない。
最後にひとつ。Pixel 4には新しい機能として、Soilレーダーを使った「Motion Sense」がある。手の動きなどをレーダー反射で把握する技術なのだが、こちらも現状日本では使えない。まだ電波利用上の法整備が終わっていないためだ。2020年春を目指し準備が進められているが、準備が終わると、以下の画面のチェックマークをオンにし、使えるようになるものと思われる。
逆にいえば、こういう表示が出るということは、海外にPixel 4を持っていけば使えるのではないか……と予想しているのだが。その辺は後日確かめてみたいと思っている。