米Facebook Researchは、2DのRGB画像から人間の姿勢を特定し、サーフェスベースの3Dモデルにリアルタイムにマッピングすることのできる「DensePose」を、Creative Commonsライセンスのオープンソースで、6月18日(現地時間)にGitHubにて公開した。
「DensePose」は、一般的には10~20個の関節によって行われている人間の姿勢推定を、5000以上のノードで定義される人体全体で行うことで、処理のスピードと精度を向上しており、従来は関節の位置特定のために、外部システムによる支援が必要であり、処理に数分かかっていたが、「DensePose」なら1つのGPUで数十人または数百人を同時に、毎秒複数フレームで処理できる。
こういった処理を実現するために、Facebook Researchでは5万人分の画像に手作業で画像とサーフェスモデルを対応させるアノテートを付けた「DensePose-COCO」を用意している。「DensePose-COCO」におけるグランドトゥルースには、セグメント化された人体とともに、無作為にサンプリングされた人体の集合が収録されているので、データ学習に必要なtrain/val/testデータが得られる。
Facebook Researchが開発した「Detectron」のMask-RCNNシステムでは、Region-of-Interest Poolingで完全畳み込み処理を行うことによって、パーツへのピクセルとUV座標の割り当てをトレーニングされた3つの出力チャネルを得ているが、「DensePose」では「Detectron」を密集した人体の姿勢推定のために拡張しており、Caffe2によってMask-RCNNと同等の処理速度を実現した。
GitHubでは、「DensePose」とともに「DensePose-COCO」のグランドトゥルース、複数の訓練済みモデルが公開されている。
この記事は参考になりましたか?
- この記事の著者
-
CodeZine編集部(コードジンヘンシュウブ)
CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です