MCPLive > 杂志文章 > 普纳·米斯崔和他的“第六感”

普纳·米斯崔和他的“第六感”

2010-06-03但蒙《微型计算机》2010年5月上

从针式打印到DOS,从键盘到触控,我们将人与计算机之间的这种交流方式称为“人机交互”。iPhone之所以成功,其中很大一部分因素应归结于我们正在使用的人机交互手段太过糟糕。学习能力不凡的年轻人也得至少花一个星期来熟悉键盘,如果想熟练操作
Windows就得花更多时间,更别提完全用好一台电脑。而iPhone却可以让任何一个普通人在15分钟内就可以驾驭它。

相比笔与纸在使用上的便利性,电脑的操作方法显然脱离了新时代的需求,它强迫我们接受一些“不合理”的行为。毕业于MIT(麻省理工学院)媒体实验室的印度小伙儿Pranav Mistry(普纳·米斯崔)对现存的计算机交互技术抱有明确疑问,并开始研究其解决之道。他开发出一套名为“第六感”的人机交互技术,在美国引起了轰动……

把数字世界从电脑里拉出来

普纳·米斯崔在完成了第六感后,一直被誉为“天才”。事实上,回溯他的履历就可发现这样的称谓也许并不夸张。他在印度完成了计算机科学与工程学的本科学业,在微软就职过一段时间,之后进一步取得了MIT媒体实验室和IIT Bombay(印度孟买技术研究所)的两个硕士学位。在大学期间,他取得了不少于10个大型计算机工程设计类的比赛奖项,展现了其创造性的天赋。

在其早期作品中,具代表性的是DATAG2.02。这个玩意儿本质上算是个机械臂控制手套,它能够感知人手指的运动,并让受控的机械臂作出完全相同的动作。这种技术已经在远程手术台、拆弹机器人上广泛使用。与这些产品相比,DATAG2.02不可思议的地方是它的材料,普纳·米斯崔只用了两个滚轮鼠标、几个弹簧和一块亚克力板就把它做了出来,成本仅为2美元。其中关键的动作感应传感器就是那两个滚轮鼠标的四个滚轴(每个鼠标有两个滚轴,分别确定X和Y位移),这样就可确定4个手指的运动。当然,这套系统中复杂的部分还是软件,DATAG2.02控制的并不是真正的机械臂,而是3D模型。

从人手的机械动作转换到3D模型的动作,需要一系列的算法来实现。当时还是一名本科生的普纳·米斯崔做到了,并凭此作品获得了2001年全印度Open Hardware比赛的三等奖。

在谈到当初DATAG2.02的设计初衷时,普纳·米斯崔说:“我从一开始就想知道我们对手势的知识以及日常用品的使用方式该如何应用在数字世界的互动上,与其使用键盘和鼠标,为何我不能直接用手使用电脑里的东西——就像在实体世界中互动一样呢?”

在这之后,普纳·米斯崔一直专注于研究类似的人机交互技术,包括一套能把便签上书写的内容同步到电脑中的装置、一支能帮助设计师绘制立体图形的笔、一套能够识别物品的Google地图系统(例如在地图上放置一个咖啡杯,地图就能指示出哪里能够买到咖啡)等等。但他并不满足于这些,紧接着他又冒出了新的疑问,彻底推翻了之前的理念:“我尝试把一样实体放入数码世界,目的是让电脑世界更直觉化。可是我发现人们其实对电脑没有兴趣,人们关心的是资讯。”

于是,2008年新的第六感项目提上日程,其目的不是为了把现实放入电脑中,而是恰恰相反,将数字世界从电脑中拉出来,将它嵌入到现实物体上,用数码资讯描绘实体世界。这种想法从简单意义上来理解,就和小孩子希望在现实世界中看到虚拟的卡通人物一样。不过普纳·米斯崔并不天真,他已经用一些廉价的硬件和一套自主开发的复杂软件将此变为现实。

“第六感”是什么?

简单来说,第六感是一套智能手机、微型投影机和摄像头的组合。其中摄像头就是一般电脑上使用的网络摄像头,像素值大概在130万~200万。投影机分辨率不超过VGA级别,采用LED光源,其镜头下方有一枚反射镜片,用于将垂直向下的投影光束反射到前方;内置电池可以提供约3小时的续航,并有望在未来配备太阳能充电面板。整套工程样机的造价为350美元,普纳·米斯崔认为,量产后其价格有望降到200美元以下。

“第六感”能像电脑那样工作,并时刻与云端,也就是存储在互联网上的所有信息相连。它可以像《少数派报告》那样用手势来进行操控,摄像头会实时捕捉手势并触发恰当的操作,从网络实时获取所需资讯,并将终结果投射到任何合适的表面上。

现阶段,第六感必须依靠手指上佩戴的红、绿、蓝、黄四色色环来辨认手势,根据不同颜色的组合、形状或运动轨迹,软件系统能够分辨出使用者不同的意图。目前有三种类型的手势可以被识别:

1.多点触控手势:这和iPhone或者iPad的多点触控很类似,通过单指的点击或多指的相对运动实现点选、缩放、旋转、翻页等功能;

2.Freehand手势:将双手摆成相框型是拍照指令,将双手合十是开启投影机等等,这是一些以手的特定形状激活的操作,而且可以根据个人喜好自定义;

3.图标手势:在空中划一个图标,例如划一个星星可以显示天气信息,划一个大方框则会显示地图等。

这些识别工作都由智能手机的处理器完成,用于处理和分析这些手势信息的视觉识别软件是第六感的核心技术,全部由MIT媒体实验室的团队自行编写,其代码量高达5万行。事实上,这套识别软件是一个高度可定制的系统,使用者无需为它改变使用习惯,它会为用户而改变,这也是第六感的精髓所在。

彻底改变你的生活

从现在跨向未来,我们必须有一道桥梁。1984年,当时苹果将施乐那些为激光打印机开发的图形界面和鼠标技术应用在了Mackintosh电脑中,它那无与伦比的操控性、便捷性和直观性令其成为了PC的里程碑。不久之后Windows的推出和普及则令PC彻底告别了黑底白字的命令行时代。2010年4月3日,苹果iPad发售,其并无新意的硬件技术配上概念新颖的软件和应用,也足以引领未来一段时间的潮流。相比之下,第六感有着更加超前的概念,它有足够的资本影响PC在未来的使用方式,实体世界甚至也会因此而改变。那么,第六感将如何改变我们的生活呢?

1.随身画笔和地图

语言在很多时候都无法准确表达意思,比如有人向你问路,或者想知道某样东西是什么样子,这时画图显然比语言更有说服力。而我们在需要的时候总是找不到纸和笔,第六感将彻底扫除这种麻烦。它扩展了我们的沟通方式,我们可以利用它画图,或者上网下载地图或任何其它信息并投影出来,以直观的方式帮助别人。

2.皮肤触控玩手机

既然以手机为平台,第六感当然可以打电话。它不会有实体的数字键盘,如果身边找不到可以投影的平面,用手掌替代也没有任何问题。这种键盘不同于任何按键固定的物理键盘,它的按键位置、大小和功能都可以灵活定制。

不要怀疑,美国卡内基梅隆大学也已经与微软共同开发出了将人体皮肤作为大尺寸触摸屏的“Skinput”技术。只需用一只手指点触手掌及手臂等的皮肤表面,即可完成手机拨号甚至操作游戏。科研人员通过关注声波脉冲的波形及强度因敲击手臂及手掌的部位不同而发生变化这一特点,开发出了根据该波形信息等通知敲击的是手臂哪一部位的软件。它能以95.5%的准确率判断敲击部位。不同的是,利用Skinput时无需使用摄像机。检测敲击部位时,第六感技术采用的是基于摄像机的图像识别方法。

3.先进的人物识别

通过先进的识别技术,第六感甚至能知道站在你面前的人是谁。它会下载个人信息的公开部分投射到对方身上,年龄、兴趣、班级等信息一目了然,建立了一种愉快而又积极的沟通方式。

4.便利的媒体资讯

Kindle曾改变了人们读书的方式,第六感也拥有这种“革命”的力量。它并不是把读物电子化,而是收集识别读物上的信息,并在网络上搜索相关内容,比如和报纸新闻有关的视频,或者某本书的书评,以让你更全面地了解某个消息,或做出更加准确的购买判断。它能理解你手上拿的东西,如果是张机票,便能告诉你航班的延误情况,是一个真正智能的生活助理。

5.便利的手势操作

在第六感的时代,拿着相机按快门照相已经过时。你只需摆个手势,它就自动把手指框中的景象截取下来。

更重要的是,第六感能够在不借助传统电脑的情况下进行照片的后期处理,借助一面够白够稳定的墙壁就可方便地完成这项工作。在这里,照片就像实物那样容易操作。

6.无需受限于屏幕

只需一张白纸,以及一个额外的夹子状麦克风,第六感就即刻变身为带触控功能的平板电脑。其中没有奇妙的魔法,人手触碰到了纸张便会发出声音,麦克风收到这个声音信号反馈给系统,就能辨认出手的触控操作。至于具体触碰到纸的哪个部位,第六感的摄像头会给出判断。

通过这个极为廉价的麦克风附件以及几乎不值钱的白纸,第六感可以满足基本的办公需求,不但可以上网,也可以方便地编辑和转移文档,甚至可以手写输入。

7.革命的游戏体验

娱乐是第六感中必不可少的元素,除了像一般的平板电脑那样看电影玩游戏外,其先进的交互特性还可带来一些新的玩法,比如在地铁地板上投射出一个弹球,和朋友们一起“踢”。摄像头可识别纸张的旋转角度,并转换成赛车游戏中的转向信号,即使第六感没有重力传感器,也可用一种很廉价的方式实现同等的功能。更奇妙的是,你甚至可以把游戏融入到真实的物体当中,比如把游戏的一个道具藏在书架上的某本书里。只要摄像头没有识别出同样的书,你肯定找不回那个道具了。

总结:第六感是幻想吗?

面对有着“天才”名号的普纳·米斯崔和其背后的MIT团队,没人怀疑他们的软件实力。但面对是否能赚钱的问题时,所有人都变得谨慎起来。即使有美好的愿望,第六感存在的一些固有问题也不应被忽视,任何疏忽都将埋葬这个过于新潮的技术。普纳·米斯崔在软件上似乎没有遇到过什么问题,软件和硬件的决定性差别是:你可以一个人完成一套复杂的软件系统,但永远没法在硬件领域这样干。在第六感整套硬件中,包含了摄像头、微型投影机和智能手机三个主要部件,它们的技术缺陷是普纳·米斯崔无法控制的。在不计成本的前提下,智能手机可以使用1GHz的ARM处理器,或者图形表现更优的Tegra 2平台,它们的性能非常充足,这不是问题。

但摄像头和微型投影机的发展不尽如人意。在这个项链系统中,摄像头和投影机都必须足够小巧,这两样东西显然和CPU不同,它们越小,表现就会越糟糕。第六感工程样机中采用的是普通的网络摄像头,其有效像素多200万,高端产品具备自动对焦功能,清晰识别0.5米内的书本文字没有问题,但距离达到1米后就模糊了。所以采用这种摄像头在识别距离上有一定限制,在光线不足的地方也会严重影响准确性。之前介绍的拍照功能,相信200万像素也仅够娱乐一下,这样的照片没有收藏价值。在一个小体积内做出很好的成像效果其实并不困难,市场上已经有非常多的卡片相机,还有那些品质更好的间谍设备。可惜在250美元内实现同等的效果,是毫无可行性的。

相比摄像头,微型投影机的问题显得更为严重,这是一种刚开始发展的新设备,以德州仪器DMD芯片和3M公司LCOS芯片两种方案为主,它们已经渐渐成熟,价格也合理。在技术上它们必然会向像素更高、更小、投影面积更大的方向发展。不过投影机有个不可能解决的问题:耗电量与投影亮度永远成正比,这是技术无法解决的问题,只可能在小范围内进行改善。目前,第六感只能实现3小时的续航,对于一款随时携带的设备,这太短了。

后,也是重要的问题似乎被忽视了,第六感借助云端来实现其强大的、无处不在的信息交互。随时随地的上网方式从来只有一个——3G(某些国家可能会有4G),而不是免费的局域Wi-Fi网络,也不是速度极慢的2.5G。在任何国家,包括发达国家和发展中国家,3G网络的资费都不算便宜。即使第六感很廉价,但3G费用仍会阻碍其在发展中国家的普及,至于印度等国3G网络的覆盖品质,又是另一个话题了。没有优良的网络支持,第六感也不过是个普通手机而已。显然,第六感的前途将受制于各地区3G网络的服务和品质。

不过,微软等美国IT企业已经对普纳·米斯崔的技术产生了极大的兴趣,而其中一些想法已经在实验室中经过了可行性的验证。未来我们的智能手机是否也会采用其中一些想法也未可知。

对普纳·米斯崔和他的第六感来说,众多支持者的鼓励和期待是大的资本。可惜它还停留在概念和实验阶段,没有养眼的工业设计、没有市场调研、没有商业计划,也没有风险投资。普纳·米斯崔在一次演讲中说的这句话:“可是我发现人类其实对电脑没有兴趣,我们关心的其实是资讯”,具有明显的主观性,也体现出了他不同寻常的自信。且不论话的对错,在业内,敢下如此确切定义,并对其后果无所畏惧的人似乎只有乔布斯。普纳·米斯崔会是下一个乔布斯吗?5年或者8年后会见分晓。现在可以确定的是,他尽管已经和乔布斯一样有了一批坚实的崇拜者,但在产品化的道路上还有一大堆问题等着他解决。

分享到:

用户评论

共有评论(4)

  • 2010.07.25 06:43
    4楼

    终,那小子又会顿悟: 人们关心的不是资讯,而是AI, AI的本质大众硬性上说就是懒惰, nasa没有这方面的需求。

    (0) (0) 回复
  • 2010.06.22 20:08
    3楼

    我们人类还有很多未知“感”

    (0) (0) 回复
  • 2010.06.08 13:22
    2楼

    我在等用嘴控制键盘解放双手··· (唠叨一句,右上角怎么没有退出的链接?)

    (0) (0) 回复
  • 2010.06.06 19:45
    1楼

    期待真正出现..

    (0) (0) 回复

用户名:

密码: