ニュース

Microsoft Teams、疲れず・反応しやすいビデオ会議「Together mode」

西田宗千佳

2020年7月9日 12:29

Togather mode。中央のドレッドヘアーの人物がジャロン・ラニアー氏

米マイクロソフトは8日(現地時間)、チームコラボレーションツール「Microsoft Teams」について、多数の機能追加を発表した。中でも目玉は、新しいビデオ会議の形である「Together mode」。8月に向けて一部機能から提供が進み、詳細については後日発表される。筆者もマイクロソフトとのバーチャル・ブリーフィングで短時間体験できたので、「Together mode」について詳細をご紹介しよう。

人の姿を自動切り抜き、映画館のように並べて見せる

Together modeはビデオ会議での「疲れ」や「リアクションの取りやすさ」を軽減することを目的に開発されたものだ。だが、なによりも以下の動画をご覧いただきたい。

動画から自分の上半身だけが抜き出されて、椅子に座って並んでいるように見える。切り抜きは自動。普段PCやMacで会議に使っているウェブカメラの映像そのままでいい。

Together mode。劇場に座っているように、ビデオ会議参加者が自動的に並び、手を振ってリアクションすることもできる

実は単に切り抜かれるだけはない。挙手や拍手はちゃんとわかるし、「席の前後」も認識している。前の人の頭や手でちょっとこちらが隠れたりもする。非常に自然に「並んで座っている」感が演出されている。奇妙なことだが、これらの工夫によって、自分が座っている時に周囲に感じる「ここは自分のパーソナルスペースだ」という感覚が得られるようになっている。

さらに、「椅子に座らせて並べる」という機能は、人が増えても自動的に適応される。部屋がいっぱいになったら自動的に椅子と人のサイズも小さくなる。もちろん、大きく少数で話すこともできる。

コーヒーショップに並んで座っているように、少人数でも可能

現状、このツールはWindows版およびMacのデスクトップアプリ版Teamsでのみ有効となる機能で、Teamsでビデオ会議をする場合の「1オプション」となる。ビデオ会議開始後に設定を切り替えるとTogether modeになる。

なお、Together modeのほかに、従来通りグリッド表示で最大49人まで表示する「Dynamic View」、全体を見やすくするための「ビデオフィルター」、「ハート」などのライブリアクションを返す機能、参加者の会話を自動的に書き起こす機能なども発表されている。ただし、自動書き起こしは現状英語のみのサポートとなる。

49人で同時にビデオ会議できる「Dynamic mode」

映像にフィルターをかけることも可能に

SNSやビデオライブなどでお馴染みの「リアクション機能」も

ビデオ会議の自動書き起こしも。まずは英語から

Together modeは「人の内面」のVR

マイクロソフトはTogether modeを「バーチャルミーティングの新しい形」と定義づけている。実はここで「バーチャル」という言葉を使っているのにはちゃんとした理由がある。

開発を担当したのはジャロン・ラニアー。1984年に「VPL Research」を設立、HMDや手の動きを取り込む「データグローブ」などを開発し、その過程で、当時はまだ馴染みが薄かった「Virtual Reality」、すなわちVRという言葉に脚光を当て、広く知らしめるきっかけになった人物だ。そのため一般には「VRの父」とも言われる。

そんな彼は現在、マイクロソフト・最高技術責任者室所属のコンピューターサイエンティストでもある。派手に3Dを使っているわけでもないし、HMDを使ったものでもないのだが、彼の「VR研究」を背景に開発されたのが「Together mode」なのだ。

ラニアー：VRには2つの側面があります。ひとつは技術。HMDなどの進化です。そしてもうひとつは我々の『内面』に関わるもの。今回のTogether modeはそちら側のものです。

ビデオ会議ではリアクションしたり手を合わせたりするのも難しいけれど、Together modeでは簡単にできます。

ビデオ会議ではどうしても疲れる。なぜ疲れやすいのか? では、Together modeでは疲れにくいのか? 調べていくと「重なっている」ことが重要なようです。

人間はお互いの姿が見えていると、座る位置を調整して合わせたり、空間を保ったり、という調整を自然に行ないます。これは、相手との感情や関係を距離で示そうとする本能的な動き、と言えます。人が生きていくには重要なので、この反応はとても素早くできるようになっています。グループ全体で何が起こっているのか、人々がお互いにどう関係しているのか、という情報も得られます。脳は「社会的空間の知覚」によって、人との関係を作っているわけです。

Together modeではそれができます。グリッドに並べられてしまうと、他の人が画面上のどこにいるのか、自分と相対的にどこから見ているのかがわからないため、自然な視線やその他の微妙な合図を送ることができません。

Together modeではみんな、(手を動かして)こうやって手を動かし、合わせてみたりします。動きだけをみたらちょっとバカっぽい、というか子供っぽく感じるかもしれないのですが、これが生産性を上げることにつながっています。そうやって意思を明確に、簡単に、誰にでも伝えられるわけですから。

ビデオ同士が重なり合うということは、バーチャルリアリティの中で、アバター同士で握手するのに似ています。私たちはテレビ会議に、それと同じ感覚を初めて持ち込んだ、と言えるでしょう。

ビデオ会議には「アイコンタクト」の問題もありますね。

ビデオ会議では人の顔が「鏡像」になるのですが、その中では、人の顔や目線を自然に追いかけるのが困難です。人間は意外に計算に弱いんですよ。しかし、Together modeでは比較的自然に相手の目線を追いかけられます。

Together modeと同じことは、将来的には、VRの中でも自然な動作として行なえるようになるでしょう。しかし、今はデバイスも普及していないし、3Dの処理も重い。限定的な部分があります。より多くの人がすぐに使えるという意味では、Together modeには大きな意味があります。人々の行動から学ばねばならない点は非常に多く、今後もTogether modeの機能拡張は続けていきます。

・「How to get the most from Together mode」(ジャロン・ラニアーがMicrosoft Blogで公表したTogether modeの内容についての文書)