U体育 | 最新更新
您的当前位置:首页 > 亚博体育 > 正文

云知声的多模态场景突围-软硬结合,端云互动

来源:yabo2018 编辑:U体育 所属栏目:亚博体育 时间:2019-01-28 16:53:52
本文由亚博科技2019年01月28日转载报道:

半年前,云知声发布了首款面向物联网的AI芯片雨燕(Swift);半年后,云知声宣布了多模态AI芯片战略,曝光了正在研发的三款AI芯片:第二代物联网语音AI芯片雨燕Lite、面向智慧城市的支持图像与语音计算的多模态AI芯片海豚(Dolphin),以及面向智慧出行的车规级多模态AI芯片雪豹(Leopard)。

从2015年芯片项目确立并搭建团队“正规军”,2017年“造芯”项目进入攻坚阶段,再到2018年 1月做出第一个MPW(多项目晶圆),2018年 5月份做了发布首款芯片,6月份启动量产,9月份发布了基于雨燕的开源方案,云知声的脚步没有停歇。紧跟着,芯片设计团队从语音技术转战至图像IP设计。

在经历了2018年的商业化洗礼后,国内人工智能企业愈发重视技术和产品方案的完整性和普适性。当人工智能在应用场景的加速落地,AI芯片的价值毋庸赘言,而“多模态”一词开始被越来越多地提及。

商业变现更进一竿

随着技术迭代和场景需求叠加,AI芯片的边界发生着微妙变化。2015年云知声决心做硬件时,专门为此在深圳设立分公司。一套完整的芯片开发过程相对漫长,期间不可避免地会涉及算法迭代,对芯片的研制速率造成影响。雨燕从设计到研发,直至最终量产,时间周期为3 年。要保证2015年立项的芯片,仍适用于时下主流的算法,云知声联合创始人李霄寒并不否认这项任务的艰巨性。凭经验对算法预判之外,团队还要拿出勇气和魄力唯此一搏。

作为云知声的芯片品牌,“雨燕”是UniOne芯片矩阵中的初代产品,它围绕智能家居和智能音箱等场景,集成IoT人机交互的各项技术,云知声发布这款芯片时称赞“雨燕”是以1/10的价格挑战50倍的性能。

“第一代AI芯片雨燕的架构非常典型。云知声做了两件事情:一是专门设计的具备自主知识产权的高性能DSP,做音频数据处理,二是做面向音频的人工智能数据/神经处理器。当把这个人工处理器集成进去以后效果是显而易见的,相对于通用方案提升了50倍。在硬件设备方面,因为这个芯片是高度集成的,所以外围的线路使得很大的成本降低三分之一”,他说。

黄伟表示,云知声在芯片上下足了功夫,为B 端客户提供了一套完整的解决方案。其不仅利用人工智能引擎对“雨燕”进行调优,还专门为硬件产品设计app。客户即买即用,无需再找其他供应商,这是云知声今后芯片提供销售服务模式。

去年9 月,云知声推出了基于“雨燕”的解决方案,并进行开源,正式推出正对智能家居和智能音箱场景下的解决方案。截至目前,基于“雨燕”的全栈解决方案已导入的各类方案商及合作伙伴已超过10家,包括美的、奥克斯、海信、京东、360、中国平安、硬蛋科技等,相关产品有望在今年第一季度上市。

“在2015年的这个时间点,我们真心没有想过2018年我们会推出自研芯片,不光做出来而且还卖出去了。”黄伟透露,云知声2018全年数亿元的营收较上年3 倍的增长,几乎全部仰仗于芯片的功劳和正确的商业化路径,预计在2019年营收再翻2-3倍。而看似几个亿的营业额背后,实则撬动了几十亿甚至上百个亿的产值。

另一场革命

在2012年公司成立之后,同年9 月云知声就推出了语音识别功能,专门面向端云互动。经过6 年多发展,云知声已经拥有成面向物联网单日用量达到5 亿次的云平台,并为平台开发了ADPC模式,它是云知声AI深度处理的核心。

2014年初,团队把语音识别技术分别切入到“AI生活”和“AI服务”两个场景中。很快,算法平台化的雏形初现,创始团队很快意识到,光有能力是不够的。“算力和算法的融合,同理于技术与场景结合”,于是云知声便有了“云端芯一体化”的产品技术架构。

当云、端、芯被认作物联网产品端的三要素,云知声立即展开对IDM产品的开发,并于在2015正式量产,出货量呈规模性增长。

与此同时,2015年,云知声遭遇来自业务端的“战术端的挑战”,主要有两方面:

第一是来自数据处理的挑战。在跟用户打交道的过程中,注定有大量新数据的导入,语音、头像、手势等数据需要处理,深度互联对算力的要求更高。追求高效就要采用基于深度神经网络的算法,这意味着云知声需要在终端提供更加充分的算力。

另外一个约束来自成本。为解决算力问题,云知声不得不采用更好的算法,导致了成本大幅提升,这对于硬件来说十分敏感。成本之外,更强的算力还意味着更多的功耗。非插电产品的“续航焦虑”指望电池性能得到提升显然不现实。

那么主要矛盾如何化解?云知声认为,基于深度学习的新硬件,即“边缘侧的人工智能芯片”势在必行,这场“自我革命”是2015年芯片项目的整体思路。

眼下,只强调算法优势的AI企业,很难再满足B 端客户的场景需求,致使企业的市场竞争力和话语权逐步衰减。尽管云知声创始人兼CEO黄伟接受采访时没有明确表态“不做芯片就会被淘汰”,但必须承认,软硬结合才是AI企业未来立足之根本。

在产品落地的过程中,算法和芯片二者不可或缺。“如果市面上有适用的芯片还好,如果没有我们就要造”,黄伟指出,“造芯”是云知声的自我选择。这不是它擅长的事,但云知声还是做出来了。去年5 月16日,云知声把第一代AI芯片雨燕(Swift)摆在众人面前。黄伟放言,即便是现在,“雨燕”的各项指标仍保持业内领先。

多模态的进击

新年伊始,云知声正在开发的3 款芯片,会在年内投产上市。一款是面向语音场景的第二代AI芯片雨燕(Swift)-Lite,其主要特点是更加轻薄;另一款是面向智慧城市场景的多模态AI芯片海豚(Dolphin),这款芯片是云知声在2019年非常大的投入,继承云知声的DeepNet2.0,它不仅仅支持雨燕的功能,还支持摄像头、ISP、OD和人脸识别;第三款是云知声与亿咖通科技合作推行的车载多模态AI芯片雪豹(Leopard),它更加着重本地算力,提供本地语音搜索,无网络的状况下也可通过语音导航选址,并具备一定的图像处理能力。

作为一家靠语音技术做强的公司,云知声看到多模态场景的大势所趋。2018年,云知声进入图像领域,并投入了不少资源。李霄寒解释,云知声已经完全具备硬件平台能力和分布式机器学习能力,以及数据高速处理和迭代能力。做这些事情不是兴趣始然,而是为了满足物联网场景下,芯片设计的需要。

当前,云知声图像识别的准确率高达99.8%。除人脸识别外,云知声还有物体识别、表情分析、颜值分析、标签化能力,这背后得益于DeepNet2.0的算力加持。

DeepNet是云知声开发的深度神经网络处理器,DeepNet 1.0面向语音技术,DeepNet 2.0面向多模态,后者既支持图像处理,同时支持语音处理。目前云知声DeepNet2.0已在FPGA上得到验证,其算力将在AI芯片海豚Leopard上得以体现。

较1.0版本相比,DeepNet 2.0首先是兼容性更好,可支持LSTM、CNN、RNN、TDN等网络;其次是支持可重构计算,DeepNet2.0计算单元可以拼接应对计算模式,模式切换也可以快速组合,用单条指令来计算公式;第三是支持Winograd,芯片做乘法的耗时远远高于加法,基于这一点,Winograd把乘法耗时降低为原来的1/2,进一步提升效率。

此外,李霄寒介绍了AI芯片在算法应用方面取得的新进展——“超听限同向降噪技术”。所谓“超听限”顾名思义,就是让机器识别到人类听觉范围以外的声音,而“同相降噪”可满足在嘈杂的远场环境下,保证芯片灵敏精准地捕捉到人声。

云知声现阶段的目标明确,就是在物联网技术面前,选择某个重点场景切入,将算力和应用服务更好地结合。而李霄寒笃信,物联网时代的重要命题,是将“能力下沉到设备端”。

展望未来的物联网AI芯片的发展路径,云知声团队一致认为,连接方式、安全性、PPA(Power,Performance,Area)是核心。但AI物联网芯片仅仅考虑这三要素还不够,场景化、多模态、端云互动这三大方面将深刻地影响AI芯片的设计、定位、成本、功耗和芯片需求。

来源:东北新闻网

网友评论:

Copyright © 2002-2018 U体育 版权所有 标签

[xuanzang:sitemap]
Top