“How-Old”的秘密,微软不是在和你开玩笑

文/石丹   2016-05-07 13:52:40


文/石丹



多大岁数了?”是女人们最讨厌被问到的问题。现在简单了,即便不问,拿起手机,打开HowOld.net拍照上传,立马测年龄。

这是前段时间微软推出的“颜龄机器人”网站 ,通过大数据和计算机视觉识别技术,判断照片中人物的性别和年龄。一时间社交网络上“比嫩”成疯。网上最有趣的一张图是林志颖(1974年)、郭德纲(1973年)和吴奇隆(1970年)三人的合影,被How-Old.net分析看到的年龄分别是:23岁、50岁和27岁。

估计前段时间你的朋友圈也被各种测龄结果刷屏了,包括各种被玩坏的……看大家玩得happy,微软在中国也顺势推出中文网站cn.how-old.net,供玩家一乐。

“小玩具”的背后

这款看似简单易用的“小玩具”,是微软对人脸识别、人工智能等技术探索和阶段性成绩的展现。其由来也是一个“无心插柳”的故事。

为了向开发者展示如何利用微软Azure云服务轻松快速地开发智能应用,微软公司信息管理和机器学习组的工程师在微软Azure上用新发布的人脸识别APIs(应用程序编程接口)为2015年微软BUILD开发者大会第二天的主题演讲搭建了http://how-old.net网站,让用户上传照片,然后通过API预测照片中所有人物的性别和年龄。网站建成后,工程师给数百名微软员工发了邮件,邀请他们体验这个网站并给出反馈。但在之后几个小时里,这个网站收到了全球3万5千个用户上传的21万多张照片。工程师们看到,这些照片中超过一半是用户上传的自己的照片,这些信息可以帮助微软改善用户体验并有助于额外测试手机上传照片。

工程师们想创造一个智能又有趣的体验吸引全球用户,于是他们浏览了微软Azure机器学习库里的一些API,其中,年龄及性别识别的功能很有趣。两位工程师只花了几个小时便把整套解决方案(从网页到机器学习API到实时数据流分析再到实时BI)整合在一起,这得益于微软一系列被称为Project Oxford的API。这是由必应和微软研究院打造的,内含大量面部、语言和视觉方面的服务。

Project Oxford是微软在Build 2015开发者大会上提出的一种解决方案,你可以把它看成是一个技术套装,它可以帮助开发人员创建更智能的应用,即使这些应用的开发者并非机器学习相关领域的专家,也可以实现人脸识别和自然语言解析等功能。这套全新的机器学习系列服务已作为微软Azure产品组合的一部分向开发人员开放。

假设你是一名对关于健身的应用充满奇思妙想的开发人员。在你的理想世界中,它包含各种酷炫的技巧,例如从照片中识别出用户的脸部,或能够理解锻炼者对它所发出的启动和停止追踪一段跑步的指令。但是,这些复杂的功能都只能通过某种先进的机器学习来实现,而你却没有实现它们所需的时间或资源。你便可以利用这个技术套装中的一些技术来帮你解决相关问题,你只要发挥你在API上的能力即可,不必担心机器学习方面的问题。

微软亚洲研究院创新工程组首席开发经理陈刚介绍,Project Oxford中的很多核心技术出自微软研究院,有一些技术已经被应用在产品中,比如语音智能理解服务、语音处理技术被应用在Cortana中;计算机视觉工具的技术在必应图像搜索里面也有应用,人脸识别技术在必应图像搜索、Windows Hello也有应用。

“现在我们要把内部的能力以Azure微软云服务的形式包装出来,能够让第三方的开发者知道微软有这样的技术,也可以去使用,这样就成为云服务推广开来。”陈刚说,“就人脸识别API来说,我们除了一些成熟的技术还加入了一些实验性的功能(experimental feature)在里面,包括年龄这个功能。尽管它不够成熟,但是我们也可以把它当成一个试水的方式,先放出来让大家去用一用,然后我们再根据大家的反馈去提升和迭代。”

提供服务、倾听用户的声音、根据用户的反馈去做快速迭代,也是微软自新任CEO萨提亚上台后开始出现的一些变化。因此,对于人脸识别相关技术的应用,微软也并不急于限定一些应用的具体领域,还是希望把这个技术通过微软云服务中的人脸识别API提供给开发者,让开发者根据自己的需求场景进行开发,微软再根据开发者的反馈去做迭代。

给计算机“一双慧眼”

微软亚洲研究院首席研究员孙剑领导的计算机视觉研究组是Project Oxford中人脸识别技术的主要贡献者。据孙剑介绍,广义的人脸识别技术主要包括:人脸检测(定位一幅图相中人脸的位置和大小),人脸特征点检测(定位面部眼睛、眉毛、嘴角等特征点),人脸识别(判断是否两张脸属于同一个人),人脸属性识别(识别年龄、性别等)。识别年龄和性别使用了统计机器学习的方法:通过一个在大量样本上训练的模型,然后用模型来预测年龄和性别。“年龄预测目前还是一个开放的、非常难的问题。”

人脸识别是计算机视觉的一个相关领域。现在恰逢深度学习技术被广泛应用,计算机视觉在快速发展,人脸识别的势头也越来越强,微软亚洲研究院前期的研究投入已有7~8年,最近几年在专攻这个领域,微软公司已拥有上百项与人脸技术相关的专利。

耕耘在计算机视觉领域十多年,能赋予算机“一双慧眼”,一直是孙剑和同事们努力的方向。

孙剑介绍,对人类而言,“认人”似乎是与生俱来的本能。因为人类拥有大脑皮层这个万能的“转换器”,它将我们视觉神经捕捉到的信号转换为真实的形象。如果计算机视觉也可以拥有一个“转换器”,那么计算机识别的效率将大为提高,人眼视觉神经的运作为计算机视觉技术的突破提供了启迪。尽管人眼识别的奥秘已经被逐步揭开,但直接应用于计算机上却非易事。一旦光线、角度等发生变化,计算机难以跟上环境的节奏,就会误识。对计算机而言,识别一个在不同环境下的人,还不如识别在同一环境下的两个人来得简单。这是因为最初研究者试图将人脸想象为一个模板,用机器学习的方法掌握模板的规律。然而人脸虽然看起来是固定的,但角度、光线、打扮不同,样子也有差别,这都令简单的模板难以匹配所有人脸。

TIPS
Project Oxford主要包括以下四个部分

人脸识别:这项技术可以自动识别照片上的人脸,对相似的人脸进行分组,并检查是否完全相同。它可以用于轻松识别出某张照片上出现的用户,以及允许用户使用面部认证登录账号等。

语音处理:该技术可以识别语音信息并将其转换成文字,反之亦然。开发人员可以使用它开发解放我们双手的工具,如口述听写,或者自动读出指令或其他必要的功能。

计算机视觉工具:此项服务通过分析视觉内容,查找例如主配色方案等。它也可以检测和理解照片中的文字(例如球队名称),并可以按照片内容(如海滩、动物或食品等)进行分类。最后,它还可以自动将照片压缩成一个可辨认的缩略图,方便浏览。

语言理解智能服务(LUIS):该服务目前仅供受邀测试,它能帮助应用理解用户用自然语言或日常口语或键入的内容。借助机器学习,让系统根据经验更好地预测用户想要什么,从而明白人们究竟希望应用做什么。


网上最有趣的一张图是林志颖(1974年)、郭德纲(1973年)和吴奇隆(1970年)三人的合影,被How-Old.net分析看到的年龄分别是:23岁、50岁和27岁。

对人工神经网络的引进是计算机视觉超越模板识别的关键,深层神经网络又为计算机“拨云见日”,如今的人脸或图像识别研究,大多基于卷积神经网络(CNN,Convolution Neural Networks)原理。

卷积神经网络可以被视为一种逐层扫描的“机器”。第一层检测边缘、角点、平坦或不平坦的区域,这一层几乎不包含语义信息;第二层基于第一层检测的结果进行组合,并将组合传递给下一层,以此类推。多层扫描之下,累加准确率,计算机就在向“让同一个人相似,不同的人有别”这一目标迈进。

在微软亚洲研究院,视觉计算组的研究员们实现了一种称为空间金字塔聚合(SPP, Spatial Pyramid Pooling)的新算法,通过内部特征识别,而不是每个区域从头检测,对整个图片只做一次计算。利用这种新算法,在不损失准确度的前提下,物体检测速度有了上百倍的提升。

在2014年ImageNet大规模视觉识别挑战赛中,微软亚洲研究院采用SPP算法的系统取得了分类第三名和检测第二名的成绩。目前,这项技术已经成功转化进入OneDrive中。采用了这项技术后,OneDrive可以自动为上传的图片添加标签。同时,用户输入关键词,就可以搜索与之相对应的图片。

未来,如果计算机能看得见、看得准并且能分析了,会怎样?孙剑为我们展现了计算机视觉在未来的多种可能。

未来,计算机视觉可以应用在那些人类能力所限,感觉器官不能及的领域和单调乏味的工作上:如在微笑瞬间自动按下快门、帮助汽车驾驶员泊车入位、捕捉身体的姿态与电脑游戏互动、工厂中准确地焊接部件并检查缺陷、忙碌的购物季节帮助仓库分拣商品、离开家时扫地机器人清洁房间、自动将数码照片进行识别分类……

或许在不久的将来,超市电子秤就能辨别出蔬菜的种类;门禁系统能分辨出带着礼物的朋友,抑或手持撬棒即将行窃的歹徒;可穿戴设备和智能手机能帮助我们识别出镜头中的任何物体并搜索出相关信息。再比如,在医疗保健方面,你可以准确识别出假药,并通过观察病人的情绪、表达来判断他们是否真的需要帮助。

在日常生活中,我们越来越关注每餐卡路里的摄入量是否超标,你可以创建一个应用,拍下食物照片,可以根据图片的数据得到这顿饭摄入的卡路里总量……更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏预测天气,监测车辆的运行、调度交通,甚至突破我们的想象,帮助理论物理学家分析超过三维的空间中物体运动。

“人工智能主题的好莱坞电影一直广受影迷们的喜爱,人类用无尽的想象力和炫目的特技构筑了一个又一个无比精彩的未来世界。但现实中,计算机科学家们的行动力似乎远远赶不上电影艺术家们的想象力。要研发出科幻电影中能看懂周围世界、听懂人类语言、并和人类进行流畅对话的智能机器人,我们要走的路还很长。” 孙剑说。

《商学院》2015年7月第7期 目录

上一篇回2015年7月第7期目录 下一篇 (方向键翻页,回车键返回目录)加入书签

© 2016 毕业论文网 > “How-Old”的秘密,微软不是在和你开玩笑