智联网之感知智能

seo排名网 2022年01月24日 18:26 471 0

　　感知智能

　　第二个等级的智能是感知智能，也是目前渗入商业最为普遍的一种智能形态。感知智能，概括起来讲，就是让机器做到会听、会说和会看，这是一种转化智能，致力于文本转语音、语音转文本、图像转数据、数据转图像这一类操作。

　　智能语音

　　最早引领感知智能商业化应用的是苹果公司推出的语音服务Siri，Siri是语音解释识别接口(Speech Interpretation &Recognition Interface)的首字母缩写。Siri原本是2007年成立的一家语音识别公司，于2010年被苹果以2亿美元收购，首次出现在iPhone 4S手机上，成为这款手机众多亮眼功能中最闪亮的那一个。本质上，Siri仍然是基于文本逻辑的，它的技术核心一个是语音识别，另一个是信息聚合。工作过程是先识别用户语音，再转换成文本，然后基于文本聚合相关信息创建答案，最后再把答案转换为语音回馈给用户。所以，文本和语音的转换能力在Siri中十分重要。虽然乔布斯(Steve Jobs)去世之后，Siri在商业上的表现始终一般，技术性能也没有快速迭代，内部技术核心人员纷纷离职，但Siri开创了感知智能融入商业的重要一步，而这一步无疑是革命性的。

　　Siri之后，很多科技巨头看到了语音识别在商业应用上的机会。亚马逊(Amazon.com)在2014年11月推出了自然语言处理系统Alexa，并基于这一平台打造了一款智能音箱产品——Echo。这款智能音箱产品被迅速引入家庭应用场景当中，出货量突破了5000万台。此后，Alexa的技能进一步扩展，恒温器、电风扇、汽车、冰箱、空调、耳机甚至电灯开关等150多种设备可以被植入Alexa，超过4500家设备制造商的28 000多款设备与Alexa平台合作，而Alexa的技能数量扩展到了超过70 000项。截至2019年1月，亚马逊宣布搭载这一系统的设备数量累计超过了1亿台。无独有偶，搜索巨头谷歌也在2014年3月推出了基于语音的Google Now服务，并于2016年打造了一款类似于Echo的智能音箱产品——Google Home。2018年，谷歌的智能语音系统进一步升级，进化出了具备“全双工通信功能”(通信双方同时发送和接收信息的信息交互方式)的私人语音数字助理——Duplex，预示着感知智能已经迈入具备认知能力的认知智能阶段。

智联网之感知智能-第1张图片-seo排名网

智联网之感知智能

　　我国国内也有很多专门从事感知智能技术开发的公司，并取得了非常不错的成绩。首当其冲的一家是总部位于安徽合肥的科大讯飞公司。这家公司成立于1999年12月，是国内老牌的做自然语言处理技术开发和应用的公司，拿过很多技术大奖，自然语言识别准确率超过98%。在语音转文本技术中，存在3%和15%这两个阈值，意思是指，如果识别错误率高于15%，那么即便有接近85%的准确度也没有意义，因为识别结果在人类看来相当于一堆乱码;如果错误率低于3%，那么即便有错也不影响人类流畅阅读，相当于这个错误可以忽略。目前大多数从事语音识别的公司，错误率都可以控制在3%以内，意味着在音转文这个领域，技术已经比较成熟了。2020年1月，我去科大讯飞的合肥总部参观的时候，发现这家公司已经在布局“全双工语音交互技术”，其打造的“AIUI”全双工语音智能助手已经

　　可以进行连续不间断的语音对话，高效完成用户多线程的语音指令任务。

　　在智能音箱方面，小米公司的表现可圈可点。2017年，小米的“小爱”智能音箱刚刚被开发出来的时候，我就有幸成为早期的体验用户。拿回家之后，发现老人和孩子迅速被这款产品吸引，儿子跟小爱同学的互动最为热烈。当然，小爱同学从技术上来说，还是“异步通信”的产物，也就是说，它的工作需要用户唤醒，唤醒之后用户给出一个语音指令，小爱同学就对这个语音指令进行音转文处理，然后基于文本做出判断，再向用户反馈结果。总之，以小爱同学为代表的智能音箱产品在技术逻辑上与Siri没有本质性差异，只是打造了智能音箱这款专用产品而已。但这款产品对于小米公司来讲应该是属于战略级的，因为智能音箱完全有可能成为智能家居的重要入口，也是小米“智能物联”(AIoT)战略的重要承载平台。在小米的智能家居场景中，用户回家后会把手机丢在一边，通过小爱同学就可以指挥一切。

智联网之感知智能-第2张图片-seo排名网

智联网之感知智能

　　用户：小爱同学……

　　小爱：我在!

　　用户：帮我把地扫了。

　　小爱：好的。

　　(指挥小米的扫地机器人开始扫地)

　　用户：我想看电视。

　　小爱：好的。

　　(打开小米电视)

　　用户：能不能把空调温度调高点儿?

　　小爱：好的。

　　(自动把空调温度调高)

　　用

　　户：帮我买瓶酱油。

　　小爱：好的。

　　(自动网上下单)

　　以上这些应用场景都是完全可以实现的。我想强调的重点是，在智能互联时代，即便是像酱油生产企业这样的传统业态，也逃脱不了人工智能技术的影响。因为传统上用户购物是基于视觉的，这就是为什么淘宝上网店装修是个大生意的原因。但是，在智能应用场景下，一瓶酱油是在没有被用户看到的情况下直接由智能算法来决定是否被购买的。所以，即便是酱油生产企业，也需要理解和利用智能设备的算法逻辑。

智联网之感知智能-第3张图片-seo排名网

智联网之感知智能

　　全双工会话

　　当然，小爱同学还不是可以进行连续会话的“全双工系统”。那么，机器可不可以做到真正像人一样进行连续会话呢?要想做到这一点，机器系统必须附加“情感维度”，也就是“情商”。2014年，微软率先在中国推出了会话式人工智能系统——微软小冰(Xiaoice)，两年后，微软(亚洲)互联网工程院通过人类主动发起的方式，让微软小冰与人类完成了60万通电话对话。微软小冰与人类发生的最长一次单人连续对话，达到了历史性的7151轮，不间断进行了29个小时33分钟。

　　如今，微软小冰已经进化成了以情感计算为核心的完整的人工智能框架，开始融入一系列的社会化角色。例如，小冰作为少女歌手，已经演唱了几十

　　首达到人类演唱水平的歌曲;小冰作为节目主持人，为69档电视和电台节目持续担当内容生产和技术提供者的角色，参与生产的节目总时长超过6908小时，而制作成本仅为人类创作团队的4.5%;作为诗人，小冰与湛庐文化合作，于2017年5月出版了历史上第一部完全由人工智能系统创作的诗集《阳光失了玻璃窗》，还协助500多万名诗歌爱好者创作诗歌;作为画家，化名为“夏语冰”的微软小冰，绘画水平达到了中央美术学院研究生水平，在中央美术学院美术馆举办了个人画展;作为设计师，微软小冰设计的丝绸作品被中国丝绸博物馆永久收藏，设计的“天际线”系列T恤衫在SELECTED店内上架销售;作为记者，微软小冰已经是《钱江晚报》的特约记者。当前，微软小冰的朋友圈人数(用户数)达到了6.6亿人，被植入4.5亿台智能设备，拥有内容观众9亿人，平均单次会话23轮。相信随着小冰的技能扩展，还会有越来越多的智能应用出现。

　　微软小冰虽然实现了连续会话，但还没有挑战到人类最复杂的语言应用场景。人类最复杂的语言应用场景是“辩论”。不同于生活和商务场景下的对话，辩论的难点在于，一是不存在既定的游戏规则;二是需要深入的语义理解，包括语言背后的逻辑

　　体系;三是能形成自己的观点，对对方的论点予以反驳。当然，辩论是多个回合的，自然需要连续会话功能。2011年，IBM研究院以色列海法实验室开始展开相关研究，探讨如何设计一个可以与人类进行辩论的人工智能系统。IBM设计的这套系统最终在2018年6月18日正式亮相，名字叫“机器辩手”。机器辩手总共与人类进行了两场辩论，第一场辩论的主题是“政府是否应该增加太空探索的费用”，机器人为正方，对垒的人类选手是以色列2016年全国辩论冠军诺亚·奥瓦迪亚(Noa Ovadia)，结果机器人败了。第二场辩论的主题是“远程医疗是否会在医疗中占据更大比例”，机器人仍然为正方，反方是以色列国际辩论协会主席丹·扎夫里(Dan Zafrir)，结果机器人赢了。最终结果是一胜一负。

　　2019年2月，在旧金山举行的IBM Think大会上，机器辩手再次挑战2016年度世界辩论大赛的决赛选手，来自牛津大学的哈里什·纳塔拉扬(Harish Natarajan)。这次辩论的主题是“政府是否应该资助学前教育”，机器辩手仍为正方。根据辩论前后的投票结果，有17%的观众被人类辩手说服，改变了立场，哈里什取得胜利。

智联网之感知智能-第4张图片-seo排名网

智联网之感知智能

　　2019年11月21日，IBM在剑桥大学同学会发起了一场让机器辩手参与正、反两方的“自辩活动”，辩论主题是“人工智能对人类的利弊”，正方主张人工智能弊大于利，而反方主张人工智能利大于弊。经过激烈对决，反方以微弱优势获胜，赢得了51.22%的观众投票，相当于机器辩手说服了观众：人工智能对人类是利大于弊的。不管机器辩手是否真正可以战胜人类辩手，但在这个过程中机器所表现出来的能力确实令人叹为观止。在辩论的过程中，机器辩手需要即时分析和处理3亿多份文档，并实时组织出合乎人类语法表达逻辑的观点。这一智能让机器辩手可以在辅助人类决策的领域大展拳脚。在那些需要分析处理大量知识的领域，机器辩手完全可以帮助人类，以最快的速度在错综复杂的材料中归纳总结出有用的观点，迅速赋能人类的决策。法务、医疗、知识产权、新闻编辑等部门是机器辩手很容易赋能人类决策的地方。

　　从语音识别到自然语言处理，到全双工会话再到辩论，机器在“会听”和“会说”方面展现出了巨大的商业潜力，智能经济的一个重要表现形态——听说经济——已经蔚然成风。

　　智能图像处理

　　既然机器已经会听会说，那么机器能否做到“会看”呢?接下来，我们讨论感知智能的另一种表现形式——图像识别与处理。一般来说，人类的眼睛在看到一张图片的时候，人类感官输入的图像信息要与记忆中存储的信息比对和分析，才能实现对图像的再认。人类具有强大的图像识别能力，对于曾经知觉过的图像，即便发生了大小、位置甚至关系上的改变，都可以准确再认。打个比方，家长指着绘本上一只站着的猫教小孩子说这是一只猫，只要小孩子“看清楚了”这只猫，那么接下来不管这只猫如何改变姿势，小孩子都能轻易认出这是一只猫。进而，给他一只不同毛色的猫，小孩子也能认出来。甚至，你给他一张不同品种的猫的照片，他也能认定为这是一只猫。所以，人类的图像识别相当智能，不但可以再认，还能达到触类旁通、举一反三的效果。

　　但让计算机做到这一点，可就没有那么简单了。通常来讲，想要做到类似于人类在图像识别上的能力，至少需要做到三点：一是大规模的图像信息输入，人类眼睛是超强的图像信息捕捉器，源源不断地为人类大脑输入图像信息，并形成记忆存储;二是智能化的图像特征提取，我们经常讲“一图抵万言”，图像包含的信息量远远超出了文本，因此需要构建足够完整的图像特征库;三是图像识别，要将输入的图像信息与图像特征库迅速比对，并输出识别的结果。过去，在没有大规模训练数据支撑的情况下，计算机只能进行简单的图像识别，比如文字识别。这就是大名鼎鼎的“OCR(Optical Character Recognition)技术”，或称光学字符识别，是用光学设备扫描打印在纸上的字符，依据暗、亮模式确定形状，再用字符识别方法将形状翻译成计算机文字的过程，相当于让计算机识字。

　　随着互联网的发展，特别是数字图像越来越普及，构建大规模的图像数据库变得越来越容易，这让需要大量训练数据集的“卷积神经网络”算法有了用武之地。微信每天会有超过10亿张照片上传，美国的WhatsApp每天上传的照片数量超过了5亿张，美图平台每天生成的照片也超过了2亿张。此外，全世界还有几亿台高清摄像头，不断生成不计其数的视频数据，各类视频和短视频网站也在强力释放视频数据流。如此庞大的数字化图像资源让图像识别技术所需要的大规模数据来源问题得到了解决。

智联网之感知智能-第5张图片-seo排名网

智联网之感知智能

　　接下来，为了应对超大规模数据下的机器学习，杰弗里·辛顿(Geoffrey Hinton)等科学家在2006年提出了“深度学习”算法，旨在模拟人的大脑进行分析和学习的神经网络，让计算机模仿人类大脑的机制来解释诸如文本、语音、图像等数据。你可以理解为，传统的机器学习是由人类专家来指定特征意义的，比如把一个符合一系列特征定义的圆形图像定义为篮球，这样计算机就在人类专家的“教导下”记住了这是篮球，等到再给计算机一张篮球照片的时候，它就能快速识别出这是篮球。这是一种自上而下的学习思路。但深度学习恰好与之相反，没有所谓的人类专家，只管输入图像信息，至于计算机到底如何来“命名”一个东西，人类并不去左右它，计算机会根据自己的理解生成定义。这是一种自下而上的学习过程。卷积神经网络是深度学习网络的一种，这种算法在计算机视觉领域表现卓越，是当前最好的训练算法。

　　天网工程

　　解决了训练数据和算法问题之后，图像识别的商业化前景随之展开。这当中一个非常重要的商业应用就是“人脸识别”。我国在这个领域的发展非常迅猛，因此产业的发展路径很有“中国特色”。据统计，截至2019年，中国的各类监控摄像头(以交通和安防为主)超过了2亿个，并且还在以极快的速度增长，相当于平均每7~8个人就被一台监控摄像头“注视”。这些无处不在的监控摄像头正在将环境和人类的行为一帧一帧转化为图像数据并保存到遍布各地的数据存储器中，以供调取、回看和分析处理。

　　从2005年开始，中国开始推动“平安城市”建设，旨在通过构建一个强大的安防网络来保证城市的安全。此举有力催生了我国安防经济的崛起，海康威视、大华、宇视等企业乘势发展壮大。平安城市建设的核心是“天网工程”，也就是由公安系统掌控的治安管理和打击犯罪类视频监控，并且早在2017年就部署了2000多万个此类摄像头。天网工程的核心是“动态人脸识别技术”，也就是说，一个人路过摄像头的时候可以被捕捉人脸图像并进行数据库比对，瞬间就能被确认身份。天网工程之后，我国还推动了“雪亮工程”，将安防范围延伸到了县区和乡镇，基本实现了全域覆盖。

　　我国的天网工程是目前世界上最大也是最复杂的视频监控网络，能够准确识别40种人脸特征，可实现每秒30亿次比对，相当于在1秒钟内把全国人民的脸全部筛选一遍，筛遍全世界也只不过是2秒钟的事。这套动态人脸识别系统的准确率非常高，1：1识别准确率在99.8%以上，而人类肉眼的识别准确率仅为97.52%。英国BBC记者曾经测试过贵阳的天网工程，手机拍摄一张面部照片后，这名记者开始以变换服装、戴口罩、藏匿行踪等方式“潜逃”，费了九牛二虎之力却被贵阳警方在7分钟内“捉拿归案”。

智联网之感知智能-第6张图片-seo排名网

智联网之感知智能

　　每台视频监控设备都是一台大数据发动机。通常来讲，一台720×576分辨率、变化运动率为70%的视频监控设备，每秒钟产生的数据量约为0.25MB，一天产生的数据量为21.1GB。可以说，视频监控领域制造出了巨大的数据量，以至于保存起来非常麻烦，所以通行的做法是保存15天的数据。之所以保存15天，还有一个非常重要的原因是目前视频监控的数据关联不够，仅仅有监控结果的记录，在后续的分析利用上还没有特别深入。但这将很快迎来转机。根据“十三五”规划，我国明确要求到2020年，全国重点公共区域视频监控联网率达到100%，重点行业、领域涉及公共区域视频图像资源联网率达到100%。这两个100%意味着，我们即将形成真正意义上的“视频联网”，有了这个资源共享基础，视频数据的价值就完全不一样了。一是基于联网数据，可以形成观测对象的详细轨迹，“分分钟于万人大军中取上将首级”。二是可以通过机器学习来预测和验证观测对象的下一步行动。最重要的是，可以将视频数据与各类数据集整合分析，这样就能对任何观测对象进行精准画像和行为预测。

　　毫无疑问，这一联网操作将把视频监控领域打造成中国乃至世界上最大的物联网平台。从此，我们将彻底生活在“数据之光”的照耀之下。如果说电力的出现让地球变成了“不夜天”的话，

　　那么数据正在让全世界成为“无秘之地”，我们将不得不在数据之光的照耀下一路裸奔!

智联网之感知智能-第7张图片-seo排名网

　　人脸识别“四小龙”

　　如果说以海康威视、大华为代表的安防企业主要通过部署安防摄像头等基础设施来采集数据并具备运算智能应用能力的话，那么旷视科技、商汤科技、依图科技、云从科技这四家原生智能企业的着眼点就是，牵引安防领域迈入感知智能时代。以上四家智能企业并称为中国人工智能“四小龙”，成立时间都不长，发展却极其迅猛，融资规模相当令人震惊，估值一路飞升。四家企业全都瞄准安防领域的人工智能解决方案。

　　“四小龙”进入安防领域的核心技术都是人脸识别，根据这些公司的公开报道，它们在人脸识别上的准确率都在99%以上。在解决了准确率的基础上，这些公司又在沿着不同的技术方向深耕，一是强化“动态人脸识别能力”;二是强化全场景或特征缺失情景下的人脸识别能力;三是匹配多源异构数据，增强由“认脸”到“辨人”的能力。应该说，正是我国在安防领域的强劲需求，才造就了“四小龙”的业务基础。

　　当然，不同的公司在侧重点上有所不同。商汤科技的投入方向是构建云计算平台，相当于京东和亚马逊早期巨资打造物流体系，AI计算平台的搭建会为未来的业务场景垂直奠定坚实的基础

　　。旷视科技更加强调技术原创性，这家公司的创始团队成员系出名门，技术开发和原创能力在“四小龙”当中首屈一指。依图科技在面向C端客户的图像处理和优化方面做得比较好，“图像+语音”双线推进并布局AI芯片，在理解终端用户体验方面走在前列，重度开拓医疗行业。云从科技号称人工智能的国家队，是诞生于中国科学院体系的创业公司，正式成立时间最短，但在除安防之外的金融行业成绩卓著，具备国家政策优势。

智联网之感知智能-第8张图片-seo排名网

智联网之感知智能

　　美国国家标准与技术研究院(NIST)2018年11月公布的全球人脸识别算法测试(FRVT)结果显示，中国在人脸识别算法方面处于领先地位。在本次算法竞赛中，位于上海的依图科技公司提交的两项算法排名第一和第二，在千万分之一误报下的识别准确率超过99%。中国商汤科技提交的两个算法夺得了竞赛的第三和第四名。中国科学院深圳先进技术研究院排名第五，中国另一家人工智能企业旷视科技位列第八。排名第六和第七的是来自俄罗斯的科技公司Ntechlab。另一家俄罗斯公司、老牌安防企业Vocord位居第九，其第二套算法排名第十三。Vocord在2019年6月被华为公司以5000万美元的价格收购，其人脸识别开发团队和相关技术专利已经归华为

　　公司所有。美国公司Everai提交的算法在本次竞赛中排名第十，排名第十一的也是一家来自俄罗斯的公司Visionlabs。本次算法竞赛共有39家全球顶级人工智能厂商参加，中国人工智能公司提交的算法包揽了前五名，在排名前十的算法里，中国公司占据了六个席位，俄罗斯三个，美国仅一个。从数据储备到算法优化再到智能联网，机器在“会看”这个领域屡屡突破，已经展现出了很强的应用潜力，智能经济的另一个表现形态——视觉经济——得以成型。

智联网之感知智能-第9张图片-seo排名网