如果用一句话概括搜狗一直在做的事情,那就是让表达和获取信息更简单,而这两件事情又都起源于一点——语言。
过去,搜狗用搜索和输入法以语言为核心帮助用户做输入和输出。
如今,这两条线正在无限延伸,构成了搜狗的语言 AI 战略。
其一,是以语言为核心的自然交互。王小川称这是机器通过深度学习之后产生人的「感知」能力。
王小川在现场展示了搜狗新的降噪算法,传统录音硬件对于噪音的识别更多是通过麦克风矩阵来实现的,而今天搜狗的工程师通过对现实场景中 4 万种真实噪音的学习,让机器有了分辨噪音的能力。王小川表示这项降噪技术也将会应用在新一代的录音笔中。
得益于在 OCR 识别、唇语识别和语音识别、语音合成、语音变声多项技术上的积累,搜狗的自然交互能力已经逐渐实现了在 AI 录音笔、合成主播等方面的实际商业使用。
其二,是在语言之上提取出跟语言的关联关系,让机器产生人的「认知」能力,王小川称之为知识计算。搜狗在 GeekPark IF X 发布了行业首创的多模态同传,在听的过程中,机器能够实时阅读 PPT,将它所看到的内容拓展成知识网络,在听和看的基础上,又多了思考的一步。随着知识计算能力的提升,搜狗未来将在知识性问答、医疗助诊、智能助理等领域里面注入更多 AI 能力。
在 GeekPark IF X 上,王小川分享了围绕着 AI 战略搜狗近期的探索和积累,以及他所构想的语言 AI 的未来。而他又将如何一步步驶向那个终点?
以下是搜狗公司 CEO 王小川在 GeekPark IF X 的演讲,经极客公园编辑整理:
张鹏说今天要谈一下未来 10 年(2020-2030 年),还要求我带来一些硬货,谈未来 10 年一定会谈到 AI。
首先从我们最近发布的一个硬货开始,就是搜狗出品的 AI 录音笔,录音笔是今年上市的,我很高兴这个录音笔已经被市场接受了,极客公园基本上人手一支,不是我赠送的,是他们掏钱买的,同时也有了很多的复购率。
录音笔是一个很小众的市场,但是因为有了人工智能的加持,录音笔变成今年电商中间的一个小爆款。搜狗 AI 录音笔相对传统录音笔,不仅有麦克风的矩阵,同时还有 AI 降噪、实时转写文字、云端的存储和搜索、智能编辑、同声传译等功能。所以,这个产品上线之后把整个市场改变了,像索尼、爱国者、纽曼都跟搜狗成立了一个联盟,而搜狗成为了联盟的盟主。
这个产品上线之前,整个录音笔市场销量逐年下滑,市场保有量只有 400 万支,但是今年 3 月份的时候,搜狗上线录音笔第一代产品,出现了一个奇怪的现象,主流电商平台的录音笔搜索量开始有了上升,到 12 月份我们发布了第二代录音笔,也得到了很多好评,所以搜狗开始一点点的变硬。这件事情就像之前手机从传统走向智能一样,而且有了 AI 能力的注入,会带来一个新的改变,AI 注入之后对于 C 端消费品有了一些变化。
谈到硬件我个人有一些观点,大家谈的比较多的是音箱,我基本的判断是人工智能对于硬件的助力,使得硬件方向有两大趋势:
第一,会变得更加便携。以前放在桌上的 PC 机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向穿戴,因此未来个人硬件的趋势是越来越移动化、便携化。
第二,更强的 IO 能力。从之前的计算能力走向传感器能力、基于 AI 的处理能力,从人去适应机器变成机器去适应人,最后机器开始接管你的感官成为人的助力。
智能硬件从以前的手机开始走向手表、耳机、到未来走向眼镜,这是我对于未来 10 年路径的一个畅想。这有可能会改变我们以手机为中心的方式,我相信在 10 年时间里面,很有可能眼镜和耳机会取代手机作为我们接触外界信息的通道,这就是 AI 未来对硬件产生影响的变化。
硬件背后,是人去接受这个世界。除了有图像和语音之外,很重要的一个事情就是语言。其实一只猫或者狗都会有图像和声音的处理能力,但是惟有人能够处理语言,语言是我们与世界交互的一种抽象的方式。
就像亚里士多德讲到的,语言是心灵印象的符号,而且是人类思维的工具,是知识的载体,并且有了语言,人类社会才能沟通交流。不管是我们生产语言,还是计算机处理语言,语言是最难的一件事情,语言是人工智能皇冠上的明珠。
在图灵测试里面提到,机器能够用语言与人交流,就代表它拥有智能,今天我们的人工智能还不具有创造力和通用的推理能力,但是我们可以去做这样的一个猜想,只有当它掌握了语言之后,它才能够完整的拥有创造力和推用的推理。如果有机器能够跟你对话,你就会觉得它具有智能,因此语言在智能当中是有极其重要的位置,也是人跟动物一个重大的区别。
我们会看到以语言为核心变成了我们去思考人工智能发展路径的关键节点。搜狗做输入法、搜索,其实就是处理语言的,也是帮你更好的表达、更好的获取信息。今天我们虽然提到有语音、图像,但是别忘了核心是语言。
|