ニュース

Pixel 3の超解像や夜景モードなど、データ処理で一眼に迫るGoogleの写真技術

Google Pixel 3

「写真の撮影はデータの問題だ」

Googleは、スマートフォン「Pixel 3」のカメラ機能に搭載した「コンピュテーショナル フォトグラフィー」と「機械学習」をテーマとした説明会を開催。AIや画像処理によるスマートフォンならではの写真撮影・表現について解説した。

Pixel 3とPixel 3 XLは、Googleが自社開発したスマートフォンで'18年10月に発売。12.2メガピクセルのリアカメラに加え、ソフトウェアやAIなど、Google独自の研究成果や技術を組み合わせ、さらにカメラ専用チップも内蔵。高度な画像処理を行なう「コンピュテーショナル フォトグラフィー」により、従来のカメラでは実現できなかったクリエイティブな写真撮影を可能とする。

Pixel担当のプロダクトマネージャー アイザック・レイノルズ氏は、Googleならではのカメラ開発のアプローチとして、「物理的、光学的な考えだけではなく、写真の撮影とは“データの問題”と捉えている。AIとコンピューティングを組み合わせ、ユニークなものにしている」と語る。

スマホのカメラでデジタル一眼に迫る

レイノルズ氏は、デジタル一眼とスマートフォンのカメラの違いとして「大きなレンズ」と「(イメージ)センサーサイズ」の2点であり、それらがもたらす効果が「ズーム」と「暗い場所での画質」、「ボケ味」の3点とする。

一眼との違いはセンサーサイズとレンズサイズ
一眼のメリットは、「ズーム」、「暗い場所での画質」、「ボケ味」

一般的なカメラでは、大きなレンズやセンサーのために、カメラ自体も大きく、重く、高価になる。それらをデータの問題と捉え、映像処理技術によりカバーし、小さなスマホのカメラで実現可能とする。それがPixel 3のカメラの狙いとなる。

Pixel 3のカメラでは、「超解像ズーム」、「夜景モード」、「ポートレートモード」の3つの技術により、“デジタル一眼並み”の実現を目指している。

超解像ズーム

Pixel 3は単焦点のカメラだが、超解像ズームにより“光学2倍ズームレンズ相当”というデジタルズームを実現する。大きなレンズを搭載できないため、データ処理により、光学ズームに近い画質再現を目指すものだ。

Pixel 3では、バースト撮影した低解像度の複数の画像から、一枚の高解像度画像を再構築する「マルチフレーム超解像」という手法を採用。

バースト撮影では、露光時間を短くすることで、シャープさとダイナミックレンジを維持。露光時間が短いため白飛びもせず、明るいシーンでも色情報の欠落を防げるという。この撮影画像だけを見ると真っ暗にしか見えないが、複数の画像をつなぎ合わせて合成することで、色がくっきり残った「写真」として復元される。

この位置合わせ(アライメント)技術も、サブピクセル精度の新アルゴリズムを導入。手ブレによる数ピクセル単位のずれも検出・活用し、安定した正確なバースト画像の解像度に強化するという。

新たな位置合わせ技術も導入

この超解像ズームでは、12メガピクセルのセンサーから48メガピクセルに拡張することで位置合わせなどの精度を向上。Pixel 3のカメラは1つだけで、2つのカメラを使った光学ズーム機能はないが、レイノルズ氏は、「光学2倍ズームレンズを使わなくても、9割はこの超解像ズームでカバーできる」とし、ソフトウェア技術により、カメラが一つでの小さなスマホで、バッテリの心配もなく、ズーム撮影ができることを強調した。

夜景モード

レイノルズ氏がイチオシと語る機能が「夜景モード」。「ちょっと画質が良くなるというものではない。これまで撮れなかった写真を撮れる」と強調する。

夜景モード

夜景モードでも超解像ズームの機能を応用。露光時間を抑え、暗さを残しながらも鮮明な写真を複数枚連射し、合成時に画像を平均化して、ノイズを低減する。「手持ち」なのか、3脚等の「固定」かを自動検出し、露光時間を調整。あわせて被写体の動きにも着目、人やモノが動いている場合は短く、「山」のように動きがないものについては長く、といった制御が行なわれる。この被写体検出や制御にはGoogleによる機械学習ソフトウェアであるTensorFlowを用いている。

さらに、オートホワイトバランス(AWB)のために、機械学習ベースのAWBアルゴリズムを開発。ホワイトバランスがきれいに撮れる画像と、そうでない画像を判別し、ホワイトバランスが取れない場合は、光の色味などを自動調整。「トンネルの中のオレンジ色のナトリウムランプ」のようなホワイトバランスが迷いがちな画像など、様々な照明条件に適応して撮影できるという。また、被写体が「人」か「机」か、撮影場所が「屋内」か「屋外」かなどを自動判別してホワイトバランスを決定する。

ポートレートモード

ポートレートモードは、デジタル一眼で実現される「レンズボケ」を、データ処理を使って実現するもの。人物のポートレートの場合は、人と背景を分離し、人以外の要素をデジタル処理でぼかして、“レンズボケ風”の写真を実現する。

左が通常の写真、右がポートレートモード

そのためには、まず「人の分離」が必要。背景と人(前景)の境界を把握し、写真の主題となる人を分離するが、このプロセスに機械学習を活用。TensorFlowで構築したニューラルネットワークは、およそ100万枚の人物が写った写真を使って訓練されており、スマホ側のTensorFlow Mobileを使用して推論を実行する。

人物の分離

前景と背景の分離の後は、深度を計算して、最終イメージをレンダリングしてぼかし度合いを決定。

深度は位相差オートフォーカスにより、深度を計算。最近のハイエンドスマートフォンで同種のポートレートモードを備えた製品は、2つのカメラを使って深度計算するものが多い。しかし、Pixel 3のカメラは1つだけだ。

Pixel 3では、左サイド画像と右サイド画像をバースト撮影し、連続した画像を整列、平均化し、ステレオアルゴリズムを適用する。最後のステップでぼかしの情報を組み合わせ、ぼかし度合いを決める。これにより、1つのカメラでも背景をぼかした撮影を可能としている。

Googleによるコンピュテーショナル フォトグラフィー

レイノルズ氏は、こうしたコンピュテーショナルフォトグラフィへの取り組みについて、「写真は光学的な問題だけではなく、データの問題であるという考え」に基づき実現されていることを強調。従来のGoogleのプロダクトは、エンジニア、ビジュアルデザイン、プロダクトマネージャーの“3本柱”のスタッフが関わっているが、カメラやPixel 3については「研究者」の貢献が大きいとする。

研究者がコンピュテーショナル フォトグラフィーを牽引

なお、こうした技術はソフトウェアだけでなく、ハードウェア側での対応も必要で、Pixelでは「Pixel Visualコア」と呼ぶ独自のプロセッサを搭載している。そのため、Pixelシリーズ以外での実現は難しいという。また、同技術のビデオ展開についても、チップなど新たな開発が必要で、現時点では写真のみの対応としている。

Google Pixel 3