访谈科大讯飞：当汽车“会说话”之后

原创安晓雅 2024-03-25 15:20:38

当新能源汽车电动化以超出预期的速度转型的同时，智能化也进入到了新的比拼当中。智能座舱作为用户感知最强、用户体验最丰富的部分，同时也成为了影响消费者购车决策的重要关键。

“打开空调”“导航回家”“播放音乐”，这些指令几乎都成了每个车主、每个乘客在车上都会常用的指令。汽车从一开始的简单播报，到现在的智慧交流，语音交互经历了怎样的发展？又将在人工智能的浪潮下有着怎样新的火花出现？又将如何应对发展中的挑战？

近日，在中国电动汽车百人会论坛上，科大讯飞智能汽车事业部副总经理李展眉接受媒体访谈，作为汽车智能语音交互的深度参与者，科大讯飞分享了对智能汽车发展的看法与动作。

以下为现场访谈速记：

媒体：李总您好，我想问两个问题，第一个问题可能比较大，比较宏观一点，咱们谈谈车联网，车联网是在十年前开始运用到汽车上，十年后，从已经交付的车来看，有的已经能搭载水平很高的智能座舱，交互也能做到让用户很满意的程度，这十多年的发展科大讯飞是深度的参与者，想请教一下李总怎么看待这十年车内智能化的发展？您能帮忙总结一下国内在这个领域摸索出的一些经验，以及一些教训。

李展眉：您提的这个问题还是很大很宏观，确实之前没有想过。

我们先不说智能网联的发展，从语音上车，可能10年都不止，在最早语音能上车的时候可能还没有网联，我们记得更早，接近20年时间，最早有一个奇瑞QQ，当时是非常可爱的一个车，我们跟奇瑞是第一次合作，那时候还没有所谓的完整的语音交互，就是一个语音的合成，我们叫TTS，把文本变成语音，就是用一个很简单的设备，插拔式的插在奇瑞上，就可以让奇瑞QQ这台车可以播报新闻以及网上的内容，当时打了一个广告语叫“漂亮的QQ会说话”，这个是我们科大讯飞智能语音的上车。

这十几年，将近20年，讯飞智能语音一边引领一边跟随着整个汽车智能化大的浪潮，如果要分阶段的话，确实挺难分的，没有一个非常明确的界限，因为在这个过程中确实技术往前发展的节奏越来越快，而且像智能技术在车上的应用，一个是随着用户的需求，第二个是整车电子电器架构的变化一步步来的。

如果从用户需求角度来说，大概可以分成三个比较大的阶段。

第一个阶段，是由技术厂商推动的，我们认为比如智能语音交互技术可以在车上有哪些应用，主动来搭载到车上做一些尝试，这恐怕是第一个比较漫长的摸索阶段。我刚才说的第一个阶段，从语音合成上车到最后的完整的语音交互完成这个过程非常漫长，确实在这里面有一些厂商是我们的伯乐，对我们有知遇之恩，愿意跟我们一起尝试，推动这个产业的发展。

第二个阶段，真正进入用户需求，当第一步摸索，真正有一些用户价值让客户感受到的时候，这个阶段真的是用户需求，就是刚需的应用，当然还有一些其他技术的发展也是紧密地衔接，比如一些刚需的应用，像导航，因为我们开车的过程中，我基本上两只手不能离开方向盘，眼睛要目不转睛地目视前方，我的眼睛注意力是在前方的，但是我的耳朵可以空余出来做导航，做导航是一个刚需。

另外，每个人平均在车上每天平均2个小时，应该差不多，相对比较闲的时候只能开车，耳朵空下来比如做一些放松，音乐，包括像喜马拉雅兴起来以后其他的娱乐资源，这是第二阶段。

第三个阶段，就是当下，开始于两三年前，就不止是驾驶员的刚需，尤其是新能源车的发展，首先这台车的使用价值不止是一个出行工具这么简单，它同时还可能是男人在下班回家前小小放空一下自己的10分钟，每个员工在中午午憩的半小时，也可能是露营的装备，它可能除了出行以外还有别的用途，这是第一种；第二种，除了驾驶员在车上使用以外，我们的车越来越趋向于多功能，比如家庭用车，比如商务用车，可能还有一些别的用途，除了驾驶员的使用之外，它还会有其他乘客的使用，汽车的第三空间概念真正成立起来以后，它的需求也会更加多样化和个性化，这就是我说的第三个阶段。

我们智能化除了满足驾驶员的刚需以外，它还要满足驾驶员除了驾驶以外的其他要求，以及除了驾驶员以外其他乘客的其他需求，我们现在在在进入第三个阶段，用用户需求的演进可能是一种划分方式。

当然这里面可能还会有别的，比如像技术的演进，比如像底层电子电器架构的演进，都是可以去划分的，我觉得是从这个角度说一下，谢谢。

媒体：还有第二个问题，我想就刚才您说的我再小小地提一下，那第三个阶段就是当下的阶段，再下一个阶段是什么呢？它的标志性的突破是怎么样的？

李展眉：再下一个阶段要看下一阶段多远了，如果我们以终为始来看的话，现在有很多人说当去年年底Open AI推出ChatGPT的时候，包括科大讯飞在内，国内通用大模型在蓬勃发展，我们看到一年多来进化的速度，不能叫发展，应该叫进化，进化的速度是非常非常惊人的，很多人都在说我们可能现在已经摸到了第四次工业革命的门槛。

前三次革命我们都看到了分别是什么，比如第一次是蒸汽机，第二次是电力和内燃机，第三次是信息技术，我们也都看到它的结果，并且现在人类社会都在享有三次产业革命的成果，如果从这个角度来看，如果我们现在摸的是第四次产业革命，假设它真的是以人工智能为核心推进的话，我觉得如果放到汽车这个领域，应该就是汽车上真正有一个大脑了。

刚才我也说到了，汽车的底层电子电器架构也在不断演进，现在已经发展到各个主要的预控阶段，前几年就在提汽车要有中央预控，我觉得演进到那个阶段中央预控除了满足电子电器架构以外，必须要有一个能够整体控制这台汽车，为乘客做各种各样需求服务的大脑，到那个阶段的时候，我相信从汽车物流工具的角度来说，可能已经进入到比如L3、L4的阶段，人在这个空间里真的就不用驾驶了。

再套我刚才说的用户需求的方法，在这个空间里的用户需求跟现在又是完全不一样的，我刚才说的一个汽车真正去控制它，以及为这里面乘客做服务的大脑就一定要有，我觉得这个大脑一定是通用大模型，现在我们看到的通用大模型可能大家感知到的还是它的文本生成能力，但实际上通用大模型底层的逻辑是建立在对现实的物理世界，以及人类社会理解的基础上，通用大模型还要加一个叫认知通用大模型，它是对这个世界的认知，所以它真正能作为以后一个主控的大脑去为汽车控制、行驶，以及为上面的乘客做各种各样的服务。

到那个阶段应该，可以想像美国《变形金刚》的电影，人人都有一个属于你的大黄蜂，应该是这样的。

媒体：您好，请教三个问题。

您刚才提到OpenAI，这两年不管是通用智能，还是说具体到一个应用领域里面发展都非常快，包括跟手机的结合也在一个应用场景里面激发了手机领域的波动，汽车领域大家也在关注，人工智能技术在汽车领域里面的应用到底接下来会在哪个场景里面形成应用，或者一个场景，让大家明显感觉到有很强的认知，在这方面科大讯飞现阶段在技术预研，包括产品落地会有哪些具体的情况也给我们透露一下。

第二个问题，现在行业里面正在做的，特别是汽车，车手互联的问题，手机跟车机联通的问题，现在也是手机造汽车，汽车企业现在有的推出手机产品，这个技术有没有难度？如果各个厂家都在做会不会有一些壁垒？

另外您判断一下车手互联未来应用场景和长期发展只是一个阶段性的产物，后期会被其他技术兼容掉，就像我们现在我手机可以做很多东西，以前可能会集成不同产品功能。

第三个问题，智能产业商业化的问题，智能驾驶商业化可能会通过产品的销售实现商业闭环，智舱会像智能手机里面里面装很多APP，每个APP背后都会有商业生态，未来智舱里面的商业生态价值会不会更大？大概会向哪个方向发展？谢谢。

李展眉：我先来回答一下这个问题，大模型如果跟车发生关系，我们分为两大部分，第一大部分叫车本身；第二部分叫车外，车外可能主要指得是车企，这个指的是为这个车研发、设计、生产，以及后续为它销售、后服务。

先说车内阶段，在我们的规划里也把它分为两部分，第一个部分叫智能座舱，第二部分叫智能驾驶。我认为这两个部分都是会跟通用大模型发生非常紧密的关系，但是它发生紧密关系的时间可能会不一样，当下马上就要发生紧密关系的一定是智能座舱，我举几个例子。

第一个，大家也知道现在中国出海比较厉害，国内的语音交互在汽车智能座舱配置率非常高，国外现在配置率比较低，包括我们出海的车辆配置率跟国内远远不能比，但是我们也能看到智能语音交互，智能座舱配置率会越来越高，趋势已经表现出来了，但是国内的车到国外以后当地老百姓一定是用他自己的语言，世界上有那么多语言，我们国内这些自主品牌出海的车都要适配他们的语言以及他们的使用习惯，这里面就有一个问题，对于我们来说，我们就要做这个语种的语音交互。

在大模型之前，当我们要做一个新的语种的时候我们是一个语种一个模型训练它，这个研发、投入，以及过程，以及各种各样的准备是投入非常大，也是比较漫长的，再加上到某一个车辆上量产和落地，这个过程比较长，也比较痛苦。

但现在有了大模型以后，首先大模型有一个特点是它的语音识别，语义识别的准确率，识别率都特别高，比原来技术路线高得多，这是第一层；第二个，我们现在用大模型去做一个新的语种的时候，不再是一个语种一个语种做了，而是用一个端到端统一大模型上面可以做多个语种，当我们要去配合某一个车企开拓一个新的地区市场的时候，他那个地方的语种以及用户的使用习惯我可以非常快地上去，这个是大模型在智能座舱在出海方面非常大的助力。

第二个助力，又说到国内，我刚才说到语音交互配置率非常高，过去路线的语音识别要做得越智能我前期要对它做的训练越多，它会的那些技能都是我前面教会它的，我不教它的，对不起，我可能不会。但是有了大模型以后，大模型有几个非常突出的能力：1、文本生成；2、语言理解；3、逻辑推理；4、知识问答；5、数学能力；6、代码能力；7、多模态能力。有几个会跟座舱发生非常深刻的关系，文本生成、知识问答、语义理解、逻辑推理、多模态。

大家可以想像，这几种能力当在座舱里跟各种各样的应用结合的时候会发生什么样的化学反应？原来我都要教会它技能，现在不用教它它都能理解，原来它可能只会一句话听懂一个技能，现在是我可以说出我的需求，它理解出来以后可以理解多个需求，自己会分配需求，现在我们还在具体场景设计，已经有一些场景出来的，还在具体场景的设计，以及后面一些新的场景规划阶段，应该很快，最快应该在4月份就能看到我们合作大模型的车真正量产，请大家期待一下。

车内还有第二部分，就是智能驾驶。智能驾驶目前跟大模型发生的关系还不是特别地紧密，目前用它来做一些训练用得比较多，但是我想说的是这是当下，因为大模型的发展会非常快，当下它还做不到的不代表未来两三年做不到，可能未来两三年会让大家大吃一惊，为什么呢？智能驾驶为什么跨过L3，甚至后面跨过L4是比较难的呢？难就难在二八原则在这个事情上也许不起作用，什么意思呢？原来当我们做一件事情可能更多是去满足80%的使用场景就能满足绝大部分的用户了，但是在智能驾驶身上不成立，也许那20%的长尾效应，因为你没有教会它，都是涉及到人的生命安全的，一涉及到人的生命安全就没有长尾效应可以忽略的问题，为什么20%的长尾效应不能解决呢？是因为我们现在自动驾驶可能更多是用规则训练教会它，就像我刚刚说的语音那种模式，我要事先教会它，它可能后面才会识别，才会理解，才会去做处理，但是如果我没教呢？比如说特别长远的没教呢？也许在百万分之一，甚至亿万分之一的概率出现，它也许就会有问题，我们之前看到某一些国外品牌出现一个白的车箱就识别不了，就撞上去了，如果是开车的一个人，这是不可想象的，他一定能判断的，这就是原来的技术路线跟人的区别。

刚才我也说了大模型是什么？大模型不是规则，大模型是一种认知模型，它最后涌现出来的智慧是像人一样去理解现实社会基本规则以及人类社会的，像这种长尾效应，我说未来，未来的大模型一定能用人的思考方式去把长尾场景很轻松识别出来，我觉得大模型去处理智能驾驶的那些长尾的场景是一个方向，我相信未来一定会是个方向，这就是我说的未来的智能化的车要有一个大脑，这个大脑不止是控制座舱，一定也是控制驾驶，这一天一定会到来，我觉得可能时间会快得让大家觉得匪夷所思。

媒体：李总好，我有两个问题，第一个，我看大模型在智能座舱领域应用，科大讯飞有星火认知大模型，主机厂在跟我们合作的时候一般会在AI算法或者是芯片选择上有哪些比较核心的需求，您能给我们介绍一下吗？这是第一个问题。

李展眉：我们星火智能座舱今年年初的时候，过年前获得了CCTV的“风云大奖”，这应该也是行业内以及媒体对讯飞的一种期待和认可。

我们为什么叫星火座舱？一定是基于我们的星火大模型，为什么叫座舱呢？其实它是一个用大模型结合汽车的各种应用场景，基于现在一些国产预控上搭载的一套软硬一体化综合的解决方案，但是它不是不可拆分的，它是一个比较开放的、模块化的、可拆分的解决方案。

总体来说，它分为大的两个部分，一部分叫基于大模型的星火座舱的软件部分，我们叫星火座舱OS；第二部分是座舱预控，我们基于一些国际政治的原因，现在聚焦于在国产预控上来做这套整体方案，但是因为它是可模块化的、可拆分的，所以我们这套软件，以及软件里的各个组件都是可以跑在其他主机厂选定的其他的芯片预控上的，比如现在主流的一些，比如高通系列的，比如说像国产的这些我们都可以适配，在这些上没有什么毛病。

多少软硬一体化还有一个什么好处呢？讯飞可以提前把AI算法用异构化的方式把星算融合集成在底座上，让用户开发上层应用的时候更加便捷，另外对各种资源算力消耗会更加节省，也会更加均匀，大概是这个意思。

媒体：第二个问题，汽车有智能驾驶跟智能座舱，我们看智能驾驶现在有一些车企有一个趋势，自己建了超算中心，包括大模型这一块的研发在智能驾驶应用上都希望放在自己的手中，我想问在智能座舱领域是不是也会有同样的趋势？因为像新造车可能也推出自己的GPT，怎么看智能座舱领域的大模型应用，是车企自己做比较好还是在第三方公司统一做会更加节省资源，这一块您怎么看？

李展眉：通用人工智能，以大模型为核心的通用人工智能现在蓬勃发展起来了，大家也都可以看到它非常具有前景的未来，我觉得作为一个有灵魂、有志向的企业，比如AI企业也好，像汽车企业也好，都会往这个方向去发展。像国内自主的一些汽车品牌，确实已经开始走得比较快了，因为有一些自主品牌已经把自己不定位成整车制造企业，已经定位成一个科技型企业了，如果从这种定位上来说，自己建立自己的大模型，后面为自己的智能座舱也好，自动驾驶也好去提供服务，这是非常可以理解的。

作为我们一个AI企业，其实我们是希望我们在这个领域能够有比其他在垂类里面有更加通用型，以及智慧化程度更高，这样才有可能跟这些更加广大的车企进行合作。应该说是不太可能所有车企都能建立一个比较完善的通用的大模型，我觉得未来在这一块我们跟各个车企之间的合作空间以及深度还是会有非常非常大的空间去继续发展。

媒体：补充问一个问题，像国外他们的大模型可能技术发展会比较快一些，从汽车行业来说，大模型在汽车领域的应用您觉得中国车企跟海外车企接下来会有什么样的竞争格局？或者说咱们国内在智能座舱领域应用比较快，是不是会因为大模型这一块的技术可能没有国外那么领先，接下来会有被反超的可能性？

李展眉：您这个问题非常尖锐。

首先我们要致敬OpenAI，大力出奇迹，为人类开启了这样一扇大门，让我们看到了不一样的未来。但其实中国企业在大模型方面，我们承认我们跟OpenAI是有差距，但是没有您说得那么明显，比如今年科大讯飞，以科大讯飞举例，1月30日发布的讯飞3.5版本，已经在中文领域全面超越了ChatGPT-4，这是在中文领域，在英文领域也已经非常接近，有些指标也超过了ChatGPT-4，我们在通用大模型领域中国厂商，当然我只说讯飞，我们在中国这么大的行业里还有非常非常多的伙伴，既是竞争者，又是同行者，大家都在努力前行，一方面我们去赶超ChatGPT，一方面互相之间也在做各具特色的竞争，是一种良性竞争，我们虽然有差距，但是随着AI厂商的投入，随着各行各业应用的落地，随着国家聚焦资源去推动，政策的扶持，这一块应该很快就能赶上，我觉得不用担心我们在智能座舱领域因为大模型这个事情会有落后。

相反，我觉得会有赶超。为什么呢？唯一比中国强的我认为现在只有美国，整个汽车智能化水平，包括各行各业智能化水平中国都是世界前列的，我们在现在看待很多行业在智能化这个事情上，不能说很骄傲，但是我们至少是很自信的看待整个行业，既不能盲目乐观，也不能妄自菲薄。

媒体：李总，刚才您提到智驾助力我们的出海，但现在在出海问题上，特别是欧美国家对我们是有所忌惮，包括一些政治涉及到的，提到不安全，说你们的车都满大街在美国跑，您讲的主要是大脑方面指挥的，安全咱们在这方面是怎么考虑的？您怎么看以后会发生的知识产权问题？

李展眉：您说到安全，可能更多讲得是用户隐私，数据安全方面的问题。

讯飞是一家非常负责任的企业，我们讯飞在用户隐私、数据安全上一定符合国家相关的法律法规，比如像《个人信息保护法》，比如像汽车行业有《汽车数据安全管理若干规定》，我们一定符合法律法规。

在公司内部组织层面上，我们设立了个人信息保护委员会，这是在我们公司集团级的，跨各个事业部，各个职能部门制定各种规则的，也设定了全球数据保护官，基于这些法律法规以及公司在这方面相关的制度，我们会定期举行全员的培训和考试，确实在这个时代数据安全合规是一条红线，不止管理层经营层要考虑，全员都要有这个意识，在产品设计、研发、交付到客户使用过程中都要严格遵循。

另外您刚才提到出海，现在讯飞跟随车企出海比较多，当然我们不是一个主导者，但是我们必须去配合我们的OEM，我们作为Trer1，配合这些OEM厂商符合相关国家的法律法规，像欧盟就是GDPR（《通用数据保护条例》），现在这个条例在世界范围内影响力还是比较大的，其他各个国家也在制定数据保护法，或多或少参访这个GDPR，现在统筹来看，无论是欧盟法律法规还是国内相关的一些法律法规，某些原则都是一样的，比如说像数据最小的必要性，数据在跨境的传输，使用过程中的问题，还有谁是个人数据的所有者，无论是车企也好，还是像我们这些智能化厂商提供者也好，我们都是数据的处理者，并不是数据的归属者，这些法律在这些问题上都是有非常明确的界定，以及对各自权利义务都是有非常明确的界定的。

包括像国内一些法律，都在一些具体的使用方法上做了明确的阐述，我们是有真正的法律可以依循的，我们也有充足的意识、组织形态、技术手段去保障。

在出海业务中，比如说基于这个地区的数据安全保护我们会在这个地区去设立服务器这些东西，大概是这样，我们各项措施是比较完备的，肯定不会出现法律法规红线的问题。

访谈科大讯飞：当汽车“会说话”之后

相关资讯