智能语音的“200万像素时代”:商业大佬都在争什么?

renyonggang 148 0

当使用语音到文本而不是手工打字已经成为一种趋势,在家里对智能扬声器或移动电话高呼“嗨,xxx”已经成为每天的事情,智能语音助理已经在更大程度上进入了我们的生活。从最初的喧嚣到今天,语音交互不再神秘。相反,随着实践的深入,一些错误层出不穷,如需要反复唤醒、难以形成连贯的逻辑、容易被“错误唤醒”等。


“有一个语音互动的过程,现在是1亿到200万像素,但我们的手机摄像头实际上是4000万像素,所以它仍然非常困难。”如何使芯片准确捕获声音,接受操作,消除周围声音的干扰,是智能语音行业的基本技术和难点。从短语句的识别到长句的逐渐识别、远场语音的识别,智能语音还处于探索的早期阶段。然而,竞争对手越来越多,除了百度、阿里等互联网巨头之外,oppo、体等手机巨头也纷纷成立研究所加入人工智能的探索,智能语音助手是一个不可或缺的研究范畴,更不用说各类专注于人工智能研究的初创企业了。

智能语音的“200万像素时代”:商业大佬都在争什么?-第1张图片-任永刚博客 - 专注人工智能、智慧城市和5G智能新生态的网站

“200万像素时代”


你有没有经历过这样的情况:当你在打电话的时候,一个插上电源的智能扬声器突然开始和你说话?这是一种典型的“误唤醒”情况,也是智能语音应用场景的代表,通常用来说明“精确度低,不太智能”。


ai在智能语音级别上已经很久没有开发了,但它并不短。2001年,苹果发布了带有语音助理Siri的iPhone4S,以使这项技术进入公众的视野。2014年,亚马逊推出了智能扬声器Echo,将语音交互从近场推向远场,将交互距离推到5米以内。今年也成为前端处理技术与后端语音识别相结合的第一年。


随着工业化需求的不断深入,近年来,相关厂家也在进行多模融合,自研芯片水平不断提高,仍处于提高无线电精度的水平。


“声音的核心在于准确的无线电部分。这太难了,没有人能做得好。因为你想要更好的性能,你必须平衡功耗,成本和芯片尺寸。”如果您向21世纪经济报道报道,这就是智能语音公司必须投资芯片的原因。否则,传统的CPU无法驱动计算。在一定距离的远场环境中,当早期应用刚刚开始探索时,如果没有添加前端处理技术,识别和唤醒将几乎不可用。从这个角度来看,学术界正在积极讨论的深度学习模式面临着“瓶颈”的问题,这远远不能被人工智能应用所接受。


群雄战斗“声音”校园


应用上诉的爆发催生了许多不同背景的厂商陆续进入游戏。智能语音技术是由智能硬件公司打造的人工智能团队的重要组成部分,也是互联网巨头对智能扬声器的投资。例如,最近在新系列手机中正式使用的布雷诺,以及去年开始使用的jovi,都是刚推出商业服务的智能语音助理。

智能语音的“200万像素时代”:商业大佬都在争什么?-第2张图片-任永刚博客 - 专注人工智能、智慧城市和5G智能新生态的网站

“语音和图像识别本质上是对结构化数据的分析,”该行业告诉记者。深度神经网络最重要的特征是对结构化数据进行标记。至于为什么我们突然觉得大家都开始做语音识别了,那是因为ARM(半导体知识产权提供商)已经开发了最新的相关算法,降低了语音识别的门槛。“


越来越多的参与者会让市场更加拥挤吗?卢言霞认为,仅从语音技术的角度来看,人工智能初创企业面临的压力是不言而喻的。因此,包括斯皮策和云芝胜在内的制造商分别从智能家居和汽车回装、医疗和教育扩展到企业级服务和芯片业务发展。相比之下,百度、阿里等平台制造商在研发投入、市场资源和生态建设等方面具有更大的优势,在接入设备的数量和相关生态方面存在着竞争。


但是,梁家恩有自己的评估。他告诉“21世纪经济报道”,类似的情况曾经发生在2000年左右,也就是说,大多数手机制造商已经建立了自己的语音团队,但后来发现他们还没有解决太多实际问题。最好在市场上引入标准化产品。“技术水平的变化也将随之而来。例如,在5G时代,在对边缘计算的更大需求之后,IT架构的设计和运营将发生变化。


“我们的判断是,我们必须考虑边缘计算或边缘智能是一个重要因素,这也是芯片业务的一个重要原因。EDGE将具有一定的处理能力,当真正需要云服务时,可以在云上联网。我认为这种模式是未来的必然趋势。


打赏 支付宝打赏 微信打赏

标签: 智能语言

上一篇当前文章已是最后一篇了

下一篇当前文章已是最新一篇了

发表评论 (已有0条评论)

还木有评论哦,快来抢沙发吧~