西田宗千佳のイマトミライ
第252回
AIスマホの競争とプロンプト=生成AI時代の終わり
2024年7月16日 08:20
7月10日、サムスンは折りたたみ型スマートフォン「Galaxy Z Fold6」と「Galaxy Z Flip6」を発表した。
折りたたみ型のGalaxy Zシリーズも6世代目となり、完成度もかなり高いものになってきた。薄型化や軽量化がさらに突き詰められている。
一方、サムスンが今年最大のトピックとしたのは“折りたたみ型”としての進化ではない。AIをスマホの中に取り込むことだ。今年に入って新製品でアピールしているのは「Galaxy AI」と名付けたAI機能であり、Galaxy Zシリーズでもそれは同様だ。
現在大手スマホメーカーは、スマホにAIを搭載することを試みている。Galaxy AIもその1つだ。アップルやGoogleも同じ戦略を採っており、今年のスマホは「AI対決」の様相を呈してきている。
今回はサムスンのGalaxy AIから、スマホ上のAIの方向性を考えてみたい。
Galaxy AIをアピールするサムスン
サムスンのGalaxy AIは、複数のAIを組み合わせたブランドと言える。
クラウド上で動くAIとスマホ内で動くAIを機能ごとに選択、スマホに搭載したアプリから呼び出す。
例えば、Galaxy AIではリアルタイムの翻訳機能や音声認識・書き起こしが軸になっている。特に折りたたみ型であるZシリーズでは、「相手に向けた画面と自分に向けた画面」の両方に文章を表示することで、翻訳しながらのコミュニケーションが容易になる、という利点がある。
翻訳や書き起こしは、スマホ内に搭載されたいわゆる「オンデバイスAI」で処理されている。処理にはスマホのプロセッサーに搭載されたAI処理向けのNPUが使われている。
ただ、Galaxy AIは旧機種向けにも提供されており、それらではGPUなども使われている。新しいモデルの方が消費電力も処理負荷も低く、有利になるのは間違いない。
今回の新機種から、Samsung AIはアプリケーション連携をさらに強化している。メモアプリである「Samsung note」の場合、生成AIによる音声書き起こしと要約機能を組み合わせることで、ノートをより素早くまとめ上げることができる。これは特に、画面の大きなGalaxy Z Fold6で有効なものだ。
また、画像生成系機能も強化している。写真からテイストの違うイラストを作るといった機能が代表例だ。これはクラウドで処理されるものなので、ネットワーク接続が必須になる。
サムスンはGoogleとも提携しており、Googleの生成AIである「Gemini」も活用する。
いわゆる「かこって検索」はGoogleの提供する技術だが、サムスンはそれもGalaxyの利点として大きくアピールしている・
GoogleはAndroidのトップブランドであるGalaxyとの関係を強めており、サムスンとしても、自社開発だけでなくGoogleの力もいち早く使える、という点が大きい。
目指す機能は似ている 実装時期や精度で競争が
こうした機能からは、サムスンがAIをスマホでどう使おうとしているかが見えてくる。
実のところ、機能的にはさほど珍しいものではない。
Googleもやっていることだし、アップルも「Apple Intelligence」で実現しようとしているものだ。画像生成にしろ音声書き起こしにしろ、各社が同じように考えている。
ただし、「すぐにどの言語で使えるのか」「どんな機種で使えるのか」はけっこう違う。
アップルは来年(2025年)になるまで英語以外の言語では使えないし、使える機種も限られる。
サムスンの場合、最新のものは新機種から導入されるが、前出のように古い機種にも順次対応していく。一方、現在の機種で使えるもので評価する限り、日本語の認識品質で言えばGoogleの方が上だと感じる。
AIの品質や対応機種がスマホの差別化要因になるのは間違いなく、そうすると、開発予算を多く用意できる大手の方が有利である面が多いのは否めない。
シャープは、新機種で積極的にAI活用を行なっている。新機種の「AQUOS R9」では、生成AIを利用した留守番電話要約機能を搭載したが、これは特殊詐欺対策にも有効だ。今後も「目のつけどころ」や「日本語処理力」で差別化して欲しい。
プロンプト=生成AIではない スマホで広がる生成AIの可能性
もう一つ、スマホ向けのAI機能で各社共通しているのは「プロンプトに頼らず、情報をスムーズに集めて使う」ということだ。
過去2年間、生成AIの世界では「プロンプトに文章を入力する」という使い方が大勢を占めてきた。ChatGPTが生成AIの代名詞になっている影響も大きい。
一方で、生成AIにとって「プロンプトで文章を入力する」「チャットでなにかをたずねる」ということは、1つのインターフェースの形に過ぎない。
チャットやプロンプト入力が向く用途もある。なにかを作るために相談することや、情報をまとめるために検索するといったことには、人間の意思や考えを伝えるために文章の力を借りるのが望ましい。
まだマスなニーズとは言えないものの、ネット検索とAIの関係が変わりつつあるのは、Perplexityの動きからもわかる。
一方、スマホの上で扱うデータは少し違う。
もっと「いますぐ欲しいもの」で、形も決まっていない。音声や画像を使うことも重要だ。「かこって検索」が出てくるのも、文字を入力するよりその方が楽だからでもある。
Samsung noteでの要約機能はこの好例でもある。音声やペンでの描画など、さまざまな要素を活用してまとめていくのは大変なことだが、そこに生成AIを使うというのは大きな差別化点になる。サムスンは長年ノートアプリを作り続けてきたが、その成果が報われてきている。
また、画像を扱う場合には特に変化が大きい。
以前より、Photoshopのように「周囲の画像から画像を生成する」機能を持つものはあった。Apple Intelligenceの「Image Wand」では、プロンプトへの入力だけでなく周囲にある文章なども加味して画像を生成するようになっている。
さらに今後は、スマホの中のメッセージやアプリの利用履歴のような、よりパーソナルな情報を活用し、生成AIがパーソナルなアシスタントとして働くようになるだろう。同じようなことはアップルやGoogleも話しているが、サムスンの向かう方向も同じだ。
ただ現状、「生成AIをスマホの上でどう活用すべきか」という答えは出ていない。翻訳やノートのまとめは確かに重要だし、画像生成も面白い。しかし「すべての人が使うもの」かと言えばそうではなく、特定の人に刺さる機能というところではないか。
だからこそパーソナルAIを目指すわけだが、パーソナルAIとしてどのような機能が求められ、どう実装すればいいかはまだ明かされていない。そこが見えていないからこそ、まずは特定の人に刺さり、確実にニーズのある機能の開発が進んでいる……と言えるのではないだろうか。
生成AIについては、そろそろある種の幻滅期が来るように思う。チャット・プロンプト型の使い方が馴染まなかった人々は少なくないし、企業内でもコストバランスについて課題を指摘する声がある。
ただ、シンプルなチャット・プロンプト型が生成AIの本質ではないし、まだまだ開発は続く。その中では、オンデバイスAIでの音声・画像の活用を含めた、より多様なあり方があり得る。スマホ向けの開発はその最前線と言える。
今年出る製品は一歩目を踏み出したところで、「AIが喧伝される割にそんなに使い道がない」という批判も出てくるだろう。
しかし、おそらくこの先になにかある。
その可能性を追求するためにはオンデバイスAIの活用と開発が必須だ。賢いオンデバイスAIを作るには、大規模で賢い生成AIを作り、そこからスケールダウンしていくことにもなる。そうすると、やはり大規模なデータセンターの力も必須になる。
各社が今取り組んでいるのは、そういうサイクルをどう作るのか、ということなのだ。