以自我为中心的视觉

简介

以自我为中心的视觉或第一人称视觉是计算机视觉的一个子领域，它需要分析由可穿戴相机捕获的图像和视频，该相机通常佩戴在头部或胸部，自然地接近相机佩戴者的视野。

因此，视觉数据捕捉到了用户专注于执行手头任务的那部分场景，为了解用户的活动及其在自然环境中的背景提供了宝贵的视角。

向前看的可穿戴相机通常辅以向内看的相机，能够测量用户的眼睛注视，这对于揭示注意力和更好地理解用户的活动和意图很有帮助。

使用可穿戴相机从第一人称视角收集视觉数据的想法可以追溯到70年代，当时史蒂夫-曼发明了数字眼罩，这种设备在佩戴后会使人眼本身有效地成为一个电子相机和一个电视显示屏。随后，在人文智能和可穿戴人工智能的背景下，可穿戴相机被用于健康相关的应用。

以自我为中心的视觉最好从眼睛的角度进行，但也可以通过佩戴在脖子上的相机进行，因为眼镜会挡住视线。

2006年，微软的SenseCam在实验性健康研究工作中推广了这种颈戴式变体。

进入2010年代，计算机视觉界对以自我为中心的范式的兴趣已经慢慢产生，并且在最近几年迅速增长，这是由可穿戴技术领域令人印象深刻的进展和越来越多的潜在应用推动的。

Kanade和Hebert在2012年描述的第一人称视觉系统的原型由三个基本组件组成：一个能够估计周围环境的定位组件，一个能够识别物体和人的识别组件，以及一个能够提供用户当前活动信息的活动识别组件。

这三个组件结合在一起，提供了一个完整的用户情景意识，这反过来又可以用来为用户本身或护理人员提供帮助。

根据这个想法，第一个以自我为中心的分析的计算技术集中在与手有关的活动识别和社会互动分析上。

另外，鉴于视频的无约束性和产生的大量数据，时间分割和总结是最先解决的问题之一。

在以自我为中心的视觉近十年后（2007-2017），该领域仍在经历着多样化。新兴的研究课题包括。

以自我为中心的视觉系统保护隐私的技术和应用基于注意力的活动分析、社会互动分析、手部姿势分析。

自我图形用户界面（EUI）理解社会动态和注意力重新审视机器人视觉和机器视觉作为自我中心的传感活动预测。今天的可穿戴相机是小型和轻型的数字记录设备，可以自动获取图像和视频，无需用户干预，具有不同的分辨率和帧率，并从第一人称视角出发。

因此，可穿戴相机自然而然地被用来收集我们日常互动的视觉信息，因为它们提供了相机佩戴者视觉领域的一个亲密视角。

根据帧率的不同，通常可以区分照片相机（也叫生活记录相机）和视频相机。

计算机视觉

前者（如NarrativeClip和MicrosoftSenseCam），通常佩戴在胸前，其特点是帧率非常低（最高2fpm），可以在很长一段时间内捕捉图像而不需要给电池充电。

因此，它们为推断用户的行为模式、习惯或生活方式等方面的知识提供了相当大的潜力。然而，由于相机的低帧率和自由运动，时间上相邻的图像通常呈现出突然的外观变化，因此无法可靠地估计运动特征。

后者（例如谷歌眼镜、GoPro）通常安装在头上，并捕获传统的视频（大约35fps），允许捕获互动的精细时间细节。

因此，它们为深入分析日常或特殊活动提供了潜力。然而，由于相机随着佩戴者的头部移动，估计佩戴者的整体运动变得更加困难，在突然移动的情况下，图像可能会变得模糊。

在这两种情况下，由于相机是在自然环境中佩戴的，视觉数据在照明条件和物体外观方面呈现出巨大的变化。此外，相机佩戴者在图像中不可见，他/她在做什么必须从信息中推断出来。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/174486/