西田宗千佳のイマトミライ
第197回
Google本社で「Project Starline」を体験した 「本人」感ある3Dビデオ通話
2023年5月22日 08:15
先週もお伝えしたが、筆者はGoogle I/O 2023に合わせて渡米し、Google本社で色々な取材を行なってきた。
その中には、まだ一般化までには時間がかかるような技術も含まれている。今回お伝えするのもそんな技術の1つだ。だが、体験の質は素晴らしく、未来を感じさせるものだった。
その技術の名前は「Project Starline」。
いわゆるビデオ会議システムなのだが、「まさにそこにいる」感覚が得られるものだった。
体験しながら担当者に話を聞くこともできたので、それを交えてお伝えしよう。
なお、技術の性質上、カメラでは映像を再現しづらいため、独自の写真や動画の撮影は許可されなかった。そのため、記事中ではGoogleが公開している画像・動画を使っていることをご了承いただきたい。
机の向こうに「本人」が3Dで登場
「ちょっとこれからミーティングをしてもらうことになります。あの部屋に入っていただけますか?」
体験がスタートする前、Googleの担当者は筆者にそう説明した。
示されたのは小さな会議室。日本の基準でも「小さめの部屋」であり、そこにあるのは、机と椅子、そして50インチくらいの横長のディスプレイだけだ。
画面を見ていると、そのうち、先ほど話していた担当者が入ってきた。部屋の中ではなく、画面の中に。
よくあるビデオ会議……という感じを持つかもしれない。だが、リアリティは全く違う。先ほど会っていた担当者が、「まさにそこにいる」のだ。
いわゆる3D映像なのだが、専用メガネなどは不要。目の前に、本人とほぼ同じサイズの映像が、精彩かつ立体で現れる。手前に飛び出してくるというより、机の奥に箱があって、その中に実際に人がいるような感覚だ。
文章ではなかなか伝わりづらいが、本当に「そこにいる」感じがすごい。手を伸ばしてバンプする、というようなことも簡単にできる。もちろん、実際に拳がぶつかるわけではないのだが、そう錯覚するくらいの感触だった。
もちろん、音声の遅延などもほとんどなく、会話も自然に行える。
どんな感じなのか?
2Dのデモ映像になるが、以下の動画でイメージは感じられるのではないかと思う。
3Dを裸眼で体験できる「ライトフィールド・ディスプレイ」
筆者は取材の中で、過去にもいくつかの「立体での対話」技術を見ている。その中でも、ここまでリアリティがあるものはほとんどなかった。
唯一、これに匹敵したのは、昨年ソニーの「Sony Technology Exchange Fair(STEF)」で体験した、「55インチの空間再現ディスプレイによる立体表示」くらいだろうか。
ただ、Project Starlineとソニーの空間再現ディスプレイには、本質的な違いがある。それが表示方式だ。
ソニーのものは、右目と左目向けの映像を流し、自分の顔の位置に合わせて表示を最適化するもの。だからデータは左右の目の分、すなわち「2画面分」になる。
それを自分の顔の位置に合わせて表示し、自然な映像に見せるのが、ソニーの方式だ。仕組み上、2画面分の映像を準備すればいいので負荷が低く、画像の解像度も高めやすいが、一方で、「1人でしか使えない」という制約がある。
一方で、Project Starlineが使っているのは「ライトフィールド・ディスプレイ」というもの。左右の目にみえる視点を再現するのではなく、「物体に反射する光」を再現して表示する。「見る方向によって目に入る光が変わる」仕組みを再現すると、「その方向から見た映像」になって見える仕組み……なのだが、説明するとかなり長くなってしまう。
興味がある方は、以前に筆者が執筆した以下の記事を参考にしていただきたい。
Googleのものは前述の記事で題材とした、JDIのものとは仕組みが異なるようだ。詳細は明かされなかった。
とはいえ、特徴は同じだろうと推察できる。
最大の利点は「複数人で見られる」こと。今回のデモは1人で体験したが、ライトフィールド・ディスプレイであるから、何人かで見られると考えられる。
映像として使う「視点」が多いため、多少こちら側が動いても像のブレが少なく、自然に見えやすい。ソニー方式が顔を認識した上で映像を補正しているのは、ブレへの耐性を高めるためでもある。
一方で、多視点の映像を生配信するのは難しい。ソニー方式なら2つのカメラで映像を撮影するだけで済むが、多視点のライトフィールド・ディスプレイ向けでは、同じように映像をカメラで撮影してライブ配信するのは困難、と言われていた。だから、ライトフィールド・ディスプレイは「出来合いの映像向け」と言われてもいた。
そう。「困難と言われていた」部分をひっくり返し、リアルタイム通話を実現したのが、Project Starlineの最大の差別化であるのだ。
リアルタイムで人を「AIで3D化」
どんな仕組みなのか?
要は「人の姿を3Dデータとしてリアルタイムキャプチャし、伝送先で再び3Dデータにして表示する」のだ。
以下の画像は、2021年にProject Starlineが発表された際のビデオから引用したものだ。
カメラの映像から人の3Dデータを作り、圧縮して伝送し、先方で再び3Dデータにしてそこから大量の視点分の映像を作り、ディスプレイ上で再現している。
このような仕組みであるため、背景は実際の映像と異なる。また、髪の毛や腕などの輪郭をよく見ると、いかにも3Dデータっぽい部分があることもわかる。だが、じっくり見なければそれらの点も気づかないだろう。
3Dデータで送る、というと大変に思えるが、「必要な帯域はさほどでもなく、一般的なオフィスの回線で問題ない」「遅延もほとんどない。こうやって自然に話せる」(Google担当者)とのことで、相当に工夫されているらしい。どのような性能のPCで処理をしているか、ということも公開されていない。
2021年の試作機は非常に大きく特殊な機材を必要としていたが、今年の試作機はテレビ程度の大きさになり、カメラも「一般的なものを複数組み合わせて実現している」(Google担当者)という。
どうやら、この変化を実現したのが「AIによる処理技術」、ということのようだ。
今回のGoogle I/Oでは「AIの活用」が全面的にアピールされたが、実はProject Starline自体もAIが不可欠な存在、ということになるのだろう。
いくつかの企業でテスト中 実用化は「まだ未定」
気になるのは実用化の時期だ。
担当者は「パートナーとともにテスト中」とだけ答える。公開されているパートナーとしてはSalesforce、T-Mobile、WeWorkなどが挙げられている。それらのオフィスには「特別な部屋ではなく、普通の会議室に置かれている」(Google担当者)とのことで、ハードウェアとしての設置負荷は小さくなっているのだろう。
だが、「日本などに設置する予定はあるか?」という問いには、「設置場所を広げるべく努力している」(Google担当者)とだけ答えた。
すなわち、まだまだ実用化の時期、市販化の時期などは未公開、ということだ。
回線の問題などはない模様なので、「ライトフィールド・ディスプレイ自体の生産コスト」「全体を処理するコンピュータとカメラのコスト」などが課題なのだろう。
どちらにしても、この技術は非常に可能性が高い。専用機器の前に行かねばならない、という大きな課題はあるものの、企業内での商談ブースや「公衆電話的機器」として提供なども考えられる。
とりあえずみなさんには「こうした機器が世の中に出る可能性がある」ことだけ覚えておいてもらえればいいかもしれない。
ビデオ通話は実在感がない、話しづらいとも言われる。しかし「実物大の立体映像」で話すことができれば、そうした懸念は一気になくなる。そのくらい、Project Starlineは体験としてインパクトがあった……と感じている。