从计算影像到计算音频,OPPO造芯的野心还有多大

2023-05-24 08:30   224   0  

随着5G互联网的高度普及,各个维度的数据量激增,AI开始全面覆盖生活各个场景,从图片到语音,从影像到语义。AI带来的便捷化和个性化越来越受到欢迎,AI无处不在的背后,支撑的正是芯片带来的庞大算力,而随着芯片的功耗不断降低,这些AI芯片已经不仅限于云端的部署,而是进入到了更多的边缘侧。




在这一趋势下,越来越多的系统公司开始尝试涉足定制甚至自行设计芯片,从而将应用场景与基础芯片相耦合。




OPPO在这方面做出了大胆尝试,2021年的马里亚纳X是一个最好的诠释,这颗独立影像专用NPU,成功应用于OPPO的Find X5、Reno8、Reno9等产品中,为消费者带来计算影像的新体验。




今年,OPPO的惊喜来自声音,在声学领域,OPPO推出了马里亚纳Y,希望再一次复制马里亚纳X的成功,这颗OPPO自行研发的蓝牙音频SoC,被寄予了厚望,旨在引领音频计算的新潮流。




image.png



如何超越AirPods Pro?



为什么OPPO这次会将重点放在声学市场?最直接的原因就是声学市场正在迅猛发展。根据Canalys的最新统计,2022年第三季度,全球个人智能耳机市场中,TWS 是唯一显示出增长的类别。而在TWS市场常年位居第一的苹果,很大程度上是由于其定制的芯片极大增强了用户体验。




严格意义上来说,苹果H1芯片与AirPods Pro广为流行的2019年,成为计算音频概念兴起之年。如今,计算音频开始迈入个性化的阶段。随着流媒体、播客以及在线会议等,关于声音的内容越来越多,TWS正在为消费者带来全天优质的音频体验。这些优质体验的背后包括了无损音频,空间音频,主动降噪等功能的不断改善。苹果也顺势推出H2芯片,以继续增强用户的音频体验。




如空间音频,传统上虚拟空间的渲染是基于一套预设模型,就像购买成衣西服,虽然精致,但细节处难免还会有不合身。而新一代的空间音频,可以根据用户个人的头型和耳廓形状,定制HRTF模型(Head Related Transfer Function,头部相关传递函数),获得最符合个人的听感,就像高级定制的西服,每一处细节都为用户的独特身材量身定制。




同时,包括AI技术、环境感知、自然语义处理等诸多先进技术融入计算音频领域,这些个性化的计算音频自然离不开底层芯片技术的创新。




再比如针对无损音频,Apple Music无损品质最高可达192kHz/24bit,QQ音乐,网易云等高解析音频可达96kHz/24bit。在这种数据要求下,需要最多9Mbps的传输速率,即便压缩一半体积,也需要4.5Mbps,因此目前的蓝牙很难满足如此高规格的传输速率,消费者只能被迫选择有线设备聆听无损音频。




马里亚纳Y是OPPO拥抱音频计算的第一步,拥有比肩苹果H2的性能,在这种高起点下,我们相信OPPO未来有可能生产出媲美AirPods Pro系列的TWS耳机。



解读马里亚纳Y:声学计算的基石



正如OPPO芯片产品高级总监姜波所说,OPPO自研芯片的目的并不是要替代供应链,而是要寻找用户价值,并以芯片为载体,体现计算的价值,体现出OPPO对用户价值的探索。“假设我们现在有了一些芯片供应商,OPPO自己做可以降低一半成本,但这绝不是我们做芯片的出发点。”他说道。




OPPO自研的蓝牙音频SoC——马里亚纳Y的三大特点,正是OPPO解决音频计算痛点的方案,更是用户价值探索的具体体现。




首先,为了更好的无损音频体验,解决目前蓝牙传输速率不足的核心问题,马里亚纳Y采用了自研的12Mbps超高速蓝牙,速度为标准蓝牙的四倍,能够覆盖目前最高规格的192kHz/24bit无损音频的超大数据量。




为了配合12Mbps的蓝牙,OPPO还开发了URLC(Ultra-Resolution Lossless Codec)高性能编解码技术。其支持最高192kHz/24bit的特性,使其可以与12Mbps蓝牙完美配合。此外,相较于其他最高60%压缩率的无损编解码方案来说,URLC的无损压缩率可达50%,可更好地节约传输带宽。




image.png




同时,URLC编解码支持80Kbps~10Mbps动态码率,这种灵活的调节模式,使蓝牙可以根据环境信号状态动态精准的调节编码率,从而兼顾了音质和传输。




马里亚纳Y除了URLC之外,还兼容包括蓝牙5.3、LE Audio的LC3编解码、LHDC、LDAC高清编解码,以及SBC和AAC传统编解码,从而使其灵活应对所有的蓝牙场景。




其次,为了增强计算音频的体验,马里亚纳Y集成了590 GOPS的NPU。基于这个NPU,OPPO不只可以实现更好的空间音频、主动降噪等表现,还在业内首创了端侧的声音分离技术。




目前,音频计算主要依赖DSP处理方式,这既包括音乐播放、EQ调整、编解码等,也包括空间音频、主动降噪等先进功能。




音频计算正在拥抱AI,比如谷歌在2022年人工智能年度活动上,公布了谷歌全新的音频生成框架AudioLM,Meta已提供的Acoustic Sythesis工具,通过AI的能力对不同视觉环境做出相应的声音反馈,从而提升环境/场景模拟的保真性和沉浸感。




随着音频计算的AI化,NPU比DSP具有更高的能效比,更高的算力,以及更灵活的架构和升级能力。马里亚纳Y的NPU为590 GOPS算力,DSP为25 GOPS算力,尽管这还是业界最高的音频DSP。超过20倍的算力提升,给未来的音频端侧应用增加了更多可能。




OPPO首创的端侧声音分离技术,正是利用了NPU强大算力。声音分离技术可以从一段完整的音频数据中,识别和分离人声或其他特定乐器的声音。目前最多可以分离生成四条独立的音轨——人声、鼓声、贝斯、其他。声音分离技术可以实现个性化的音频方案。比如可以实现自定义全景声,甚至是万能全景声。万能全景声是个极大增强用户体验的功能,很多过去制作的音乐理论上不支持“杜比全景声”等格式,而现在,马里亚纳Y可以在端侧实时将音轨分离并重新渲染,从而将任意普通音频,转化成立体声、环绕声或者全景声,形成极具沉浸感的听觉体验。




NPU和声音分离技术的应用还有很多可能,比如,利用声音分离技术,提取人声和噪音,实现更加纯净的通话降噪效果;又如,利用声音分离技术对老电视剧的人物对话进行增强;或者是利用这一技术实现更加随时随地的卡拉OK体验。




第三,则是马里亚纳Y率先采用了台积电的N6RF射频工艺,N6RF是台积电2021年推出的专为射频领域优化的先进工艺,将先进的 N6 逻辑制程的功耗、效能、面积优势带入到射频解决方案中。




尽管N6RF的主要定位放在了5G 与WiFi 6/6e等主力射频战场,但时至今日,采用N6RF的产品只有三款,分别为马里亚纳Y,苹果的H2以及苹果的GPS。 



马里亚纳Y的意图究竟是什么?



“这颗芯片无论是投入成本,还是市场ROI,从商业角度上看都是非常不划算的。”姜波告诉媒体。在芯片设计领域拥有2000人规模的OPPO,其目标也不止影像或音频计算这些垂直市场。




从用户需求角度出发,从音频计算痛点思考,是马里亚纳Y诞生的根源。




马里亚纳Y是OPPO是第一次试水射频和连接技术。相比数字电路或者模拟电路而言,射频市场需要的经验与积累是最多的。在设计考量时也需要仔细权衡,挑战工艺极限或者设计创新性电路结构,这极大考验研发设计人员的经验积累;




另外,台积电的N6RF至今只有一年半的时间,虽然是先进制程的分水岭,但成熟应用还不是很多,客观上也没有经过市场的充分验证,足见OPPO团队在射频开发领域的实力不可小觑。




而且,考虑到未来N6RF的目标射频市场,以及未来射频与连接技术的多样化,OPPO的芯片也许会有更多的惊喜。




image.png




其次,这也是OPPO首次涉足SoC的开发。和马里亚纳X协处理不同,马里亚纳Y是OPPO首个SoC芯片解决方案,完整地负责一个蓝牙音频设备的所有功能。这标志着OPPO首次打开了连接芯片设计的新领域,具备了蓝牙连接的软硬件全套能力,也意味着OPPO首次具备了计算+连接能力的蓝牙SoC平台设计能力。



以平常心迎接未来



正如姜波所述,OPPO团队始终保持着一颗循序渐进的平常心,在自研芯片的道路上尊重客观规律,隔绝外界的压力,不妄想弯道超车,坚信长期主义,做好了十年磨一剑的准备。




在万物计算,万物互联的时代,每个系统厂商都有掌握核心科技的理由和动力。作为行业领先的系统公司,OPPO从马里亚纳X的成功获得了市场认可,这也使其有信心推出马里亚纳Y。




透过一系列的产品,OPPO一方面提升了用户体验,另外则是通过一系列的尝试来打磨团队,增强定义及设计芯片的能力,逐步掌握从AI到连接等各式各样的技术。



从马里亚纳Y公布出来的芯片数据,我们有理由期待搭载该芯片的耳机,可以真正迎来音频计算的新时代。尽管OPPO对于未来的芯片规划闭口不提,我们更长远的期待或好奇是OPPO将如何继续挖掘市场空白,不断通过底层创新打造出自己的特色。





登录icspec成功后,会自动跳转查看全文
博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。