SERVICE PHONE
13920192029发布时间:2025-01-18 13:08:11 点击量:
(本文源自2023年12月12日直播“对话刘庆峰”)
2023年12月,我邀请了科大讯飞创始人刘庆峰老师一起对谈。在我心中,科大讯飞一直是一个特别了不起的企业,是中国高科技的代表,他们的科技产品,比如语音识别技术、讯飞听见、讯飞翻译机、讯飞智能耳机等等,为我们的生活提供了很大的便利。在ChatGPT横空出世之后,他们也紧随其后推出了讯飞星火认知大模型。在这次对谈中,我们聊了很多语音科技、人工智能相关的话题,为了便于大家的理解,我整理了一些相关概念的大意,希望能对大家有所帮助。
语音合成(Speech synthesis):语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(Text to Speech)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。
语音识别:也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音转换为文字和指令。
训练芯片:专门设计用于训练深度学习模型的芯片,需要接收大量的输入数据,并根据这些数据来调整神经网络模型的权重和参数,以使其能够准确地预测目标。
推理芯片:专门设计用于在训练后使用已经训练好的模型进行推理或预测的芯片。
“863”计划:1986年3月3日,王大珩、王淦昌、杨嘉墀、陈芳允四位科学家向国家提出要跟踪世界先进水平,发展中国高技术的建议。经过邓小平批示,国务院批准了《高技术研究发展计划(“863”计划)纲要》。随着该计划的深入实施,我国在信息技术、能源技术、先进制造与自动化技术、生物和医药技术、深海技术等领域都取得了重大进展。
俞敏洪:各位朋友好!今天我邀请对谈的是科大讯飞创始人刘庆峰老师。我跟庆峰是多年的朋友,算比较熟悉。科大讯飞一开始就在语音领域,逐步通过语音识别、语音合成和机器翻译等关键技术的突破,将语音翻译做到了非常厉害的程度。新东方做的就是特别原始的和学生面对面的语言培训,尽管也有效果,但和高科技没有半毛钱关系。一个搞高科技的,英语不一定比我好的刘庆峰同志,现在做出了在中国乃至世界上非常先进的语音翻译技术,帮助无数人解决了语言不通带来的困境。
有不少朋友都在用科大讯飞的翻译机,到全世界旅行的时候,只要打开翻译机,你的日常旅游就不会有太多交流上的困难,包括我现在参加很多国际会议,都会使用科大讯飞同步翻译和语音采集的功能。
讯飞星火认知大模型也很让人惊喜,最近我刚好要在一些大会上用英文致辞,我以前都是自己苦思冥想用英文写上两三个小时,毕竟我们的中文思维比英文思维要快很多,但我现在只需要写好我的中文演讲稿,再用讯飞星火进行翻译,一秒钟就出来了,基本上改极个别的词和句子,就可以照着念了,非常了不起。
我还试用过一款助听器。小时候我妈给我掏耳朵,用镊子时一不小心把我的耳膜捅穿了,从此我的耳朵听力就一直不太好,随着年龄增大,这只耳朵几乎就失聪了。有一次我去看庆峰,我说你这个耳机挺好的,他说这不是耳机,这是助听器。我说让我听听,结果我一放耳朵上,就听到了远处的鸟叫声,我就很开心,我说你把这个助听器送给我吧。现在只要人多的时候,我就会用科大讯飞的助听器。科大讯飞的产品已经深入到我日常的生活、学习、工作中了。
今天我将和庆峰一起聊聊他的学习、创业、庆峰和科大讯飞团队为中国的语音技术、人工智能技术、大数据模型所做的事情以及贡献,以及他们的产品如何跟孩子们的学习相结合。今天也是我第一次密切接触语音技术,所以我完全是抱着学习的心态来跟庆峰探讨。
俞敏洪:庆峰,你比我年轻差不多10岁。
刘庆峰:俞老师好,我确实比您小10岁左右。今天特别高兴能来这里,当年我们在科技大学读书,人手一本“红宝书”,那时候俞老师就是大学生的榜样!
俞敏洪:谢谢,我们从你小时候讲起,你父母是知识分子吗?
刘庆峰:算是知识分子,我爸其实是退伍军人,原来在煤矿做机电工人,但他那些机电知识都是他退伍之后自己学的。
俞敏洪:也是好学之人。
刘庆峰:对。我妈妈说我刚出生的时候,爸爸在家里到处写满了密密麻麻的机电知识。
俞敏洪:你妈妈有文化吗?
刘庆峰:我妈妈上到小学四年级,但她很聪明,她当时在供电局的附属单位里做会计,账写得很清楚。
俞敏洪:在你的成长过程中,他们俩谁对你影响更大?
刘庆峰:都挺大。我爸那时候在供电局,他先在农村的变电所里抄表收费,后来做站长,一直不在我们身边,所以我跟我妈的时间更长。
俞敏洪:你父母身上不同的品质或者个性,对你产生了哪些不同的影响?
刘庆峰:我觉得我妈最大的特点是付出,她非常坚韧、有牺牲精神。我和我弟弟从小上了这么多年学,我妈总是比我们起得早,我们如果早上6点起床,她一定5点半就起来了。
俞敏洪:她要给你们做早饭。
刘庆峰:对,而且她在家是老大,有作为老大的担当,所以她对我外公、外婆也非常孝顺。我爸是那种即便家里穷得叮当响,来了客人也要把最好的东西拿出去,非常幽默、非常开朗、非常讲义气的性格。他们俩当时参加供电局的知识竞赛,我妈背得滚瓜烂熟,我爸好像不怎么背,但每次考试,我爸都是第一名。
俞敏洪:记忆力很好。
刘庆峰:他们俩对我的影响还是蛮大的,比如做任何事情都要长期奋斗,都要坚忍不拔,这是从我妈身上学到的。我爸带给我的就比较大开大合,不太注重利益。很多时候,创业也好、交朋友也好,财散人聚,财聚人散。
俞敏洪:跟你后来做科大讯飞时更注重团队精神而不是个人利益有一定关系?
刘庆峰:是。我们股权比较分散,早期我们在福建,人家把我留下来,一开始投资人给了我股份,我们团队都没有,可我后来发现应该在合肥,应该围绕科大,我们又送给科大干股,又给团队分了股份。我估计你身上也有这样的特征,把利益分享出去,把更多的人团结在一起。
俞敏洪:这是大爱,是必须的。你跟你弟弟都是学霸吗?
刘庆峰:我弟弟学习也不错,他也是科大博士,但我们俩很不一样,我基本属于能考100分就不会考99分的类型,自我感知、判断比较清楚,属于比较稳健的学霸。我弟弟属于好的时候很好,稀里糊涂的时候很差。
俞敏洪:你小时候专注力就特别强了吧?听说你家里来了一帮亲戚朋友,在家里喝酒聊天吃饭,两个小时过去了,等你亲戚朋友走了以后,你弟弟告诉你说亲戚走了,你却说,啊?亲戚来了吗?
刘庆峰:类似这样的事还真不少。我家在泾县,但我高中上的是宣城中学,当时不是说毛主席在闹市里也能读书嘛,我就每周六回家的时候,去那个人山人海的汽车站找个地方坐下来看书学习,身边非常吵、非常嘈杂,但我不会受任何影响。
俞敏洪:你太厉害了,我也装模作样地拿过书去闹市里看,结果两个小时过后,我一页书都没看过,光在那儿看卖鸡、卖鸭、卖鱼了。
刘庆峰:所以你对社会的洞察能力非常强。
俞敏洪:我是典型的文科思维。
刘庆峰:北大学生的特点。
俞敏洪:你的数理逻辑能力这么强,你觉得是天生的,还是后天习得的?
刘庆峰:可能还是有先天遗传的成分。我觉得如果按照科学的学习方法学习数理,一般人都能学得还不错,比如高考150分,你考个120几分,基本智商正常的人都没问题。但如果你学高等数学、奥数会很有感觉,说明你还是有数学物理的天分。我觉得人和人的特点不一样,有数理天分的人不一定就比别人强,有人有体育天分,有人有艺术天分,有人有书法天分,大家各自的天分不一样。
俞敏洪:你现在是两个孩子的父亲,你是不是认为应该按照孩子的天分来培养他们?
刘庆峰:当然,应该是这样的。
俞敏洪:你有两个孩子,第二个孩子还比较小,可能还看不太出来,但你女儿的数理天分是不是很强?
刘庆峰:她数学天分应该没有我强,但她对物理的感觉比我好。她上小学、初中的时候,别人家都在上各种兴趣班,我们家坚决不上,完全随她自愿,唯一一个兴趣班就是弹钢琴,但弹到六级,她说不上了,我们就不上了,然后天天玩。当时合肥最好的小学和初中是中国科技大学附小、附中,但我们住在高新区,她过去上学单程要20分钟、半个小时,我们为了让她每天多一些玩的时间,少一些上学、放学的路途,最后就选择在楼下的普通学校上学。
她读初二的时候,有一次马上就到期末考试了,有天跟她聊到了武侠小说,她说她很感兴趣,我就给她买了一套金庸的武侠小说。然后她在学校,不想做寒假作业,我扫了一眼说,你会做就不做了,我就鼓励她跟老师沟通,说这个作业我都会,我就不做了。所以她读初中的时候,他们班主任对我很有意见。
俞敏洪:老师还不给气死。
刘庆峰:所以为什么高中我们会让她上国际学校?还是因为中国的高中太卷了,即便她喜欢数学物理,也不想让她在竞赛中反复刷题,我们希望她能享受开放性的学习,做自己想做的学习。她喜欢什么,我才让她学什么,因势利导。
俞敏洪:现在孩子在哪个大学学习?
刘庆峰:在普林斯顿大学学物理,她喜欢这个。但我觉得,作为父亲,特别重要的还是让孩子开心,让她学自己感兴趣的东西。安徒生诞辰一百周年的时候,有一句我特别喜欢的话,说安徒生对人类最大的贡献是什么?发现了童年。童年是人生的一个独立阶段,不能把童年和青少年都当成是为了成为成功人士而拼命付出的过程,我觉得天真无邪地享受快乐的童年非常重要,所以我希望将来对孩子们的教育应该因材施教,比如数理化学习,我们能针对每个孩子的知识掌握情况,给到不同的推荐内容,让每个孩子有不同的作业,减少无效、低效的重复训练,也把那些过难的训练省掉,因为他前期的知识点没掌握,后面的知识点学十遍也都学不会。他以为自己很笨,老师也以为这孩子不可教,事实上你按图索骥,就会越学越自信。
俞敏洪:提起孩子的学习兴趣,比孩子的成绩要重要。
刘庆峰:一方面是学习兴趣,另一方面是学习的自信心。中国现在的孩子在家里受到了太多关爱,在学习中受到了太多打击。其实很多时候,孩子并不是不会,但由于在教学过程中,总有孩子因为贪玩、分心,某些知识点掌握的问题,缺了一环,基础没盖好,导致上面怎么都盖不起来,一步缺,就步步缺。老师不知道他缺在哪儿,孩子和家长也不知道,现在的人工智能通过精准分析孩子的作业、考试、课堂互动情况找到薄弱点,按图索骥帮孩子补上,不光学习效率高,关键还能让孩子有自信,他接下来才会有学习兴趣。
俞敏洪:科大讯飞学习机今年就卖了几十万台,你们这个学习机是为学渣设计的,还是为学霸设计的?
刘庆峰:学习机主要是能对学情做分析,能对学习做推荐,能对语言做提升,能以成效促信心。在我们对学生做完测试以后,能帮他找到他的知识盲点。如果盲点太多,想一晚上补上是不可能的,我们会给他推荐知识点学习的顺序,比如怎么在50分钟的有效学习时间内把最应该补的补上?学习是相对后进的,不能一把压垮,所以这个功能会对孩子非常有帮助。有一些孩子,原来觉得自己考不上高中或者重点高中,因为学习机提高了他的兴趣,后面也能进入不错的学校。当然也有好学生使用我们的机器,现在一般不讲高考升学率,但确实在很多地方,孩子用了以后上了清华、北大。
俞敏洪:学渣慢慢也能提升成绩,学霸也能找到自己的发展空间。
刘庆峰:对学霸来说,他更需要把无效、低效的重复学习任务省掉,比如一些大量的刷题。
俞敏洪:我们都有这样的经历,老师布置了两小时的作业,我十分钟就做完了,剩下的做什么呢?不知道。学习机能解决这个问题吗?
刘庆峰:能解决,很好地解决了。但是另外一个是什么呢?我们不叫学渣和学霸,孩子总有自己的个性和天性,现在的学习机有一个语言对话功能,你想学科学知识,你可以直接跟爱因斯坦交流,想了解算术知识,你可以和祖冲之对话,这种方式可以极大地拓展孩子的学习兴趣和知识面,对孩子会很有帮助。
俞敏洪:学习过程中,学生自信心的提升最重要,所以现在不管是什么水平的学生,都能通过现代化人工智能设备,包括学习机,提升自己学习的自信心吗?
刘庆峰:现在孩子最大的焦虑来自哪里?就是他学了几遍还不会,为什么?因为他前期的知识盲点并没有被补足,尤其是理科,知识点与知识点之间有相关的习得顺序,知道了1+1=2,才会知道1+2=3,所以当前面的知识盲点没有被补足的时候,后面的学习也会比较艰难。而学习机最强大的功能就在于,它能帮助孩子找到自己的知识盲点,并帮助孩子去学习。
俞敏洪:这一点在理科里特别明显,如果是文科,要先读《水浒》还是先读《红楼梦》,根本就无所谓,但理科不行。
刘庆峰:对,理科的学习有一个习得顺序,所以只要找准了孩子的薄弱点,他学会了这一点,学下一点的时候就会轻松很多,进而就会进入良性循环。
俞敏洪:把知识基础打结实了。
刘庆峰:对。如果孩子能像郭靖一样,有七八个老师围绕着他,可能也能做到,但我们没那么多社会资源,所以现在通过人工智能来因材施教、提升孩子的学习兴趣,是一个很好的方式。我们承担了国家发改委和教育部的教育大数据专项课题研究,我们分析了大概30多亿次孩子的作业,发现孩子在家做的作业,50%是无效、低效的重复作业,如果能把这部分省掉,孩子不光会学得更自信、学习成绩更好,而且还能腾出时间让孩子锻炼身体、参加劳动、提升艺术、科学素养……陶行知说要解放孩子的头脑、双手、眼睛、嘴、空间、时间,不这样他哪有时间?
俞敏洪:现在孩子们在这6个方面都不自由,被束缚在那一点点教科书和家庭作业上了。
刘庆峰:最大的不自由就来自于时间的不自由,现在孩子要先保障基本的学业,再把他的时间腾出来,那么,根据我们统计出来的结果,针对单个知识点的练习,其实减少50%后仍然可以达到同样的效果,这样他就有时间做五育并举,有时间享受童年。
俞敏洪:你考大学的时候,据说你的分数超过了清华大学四、五十分,为什么不去清华,去了中国科大呢?
刘庆峰:1990年的时候,科大分数线在全国和北大、清华齐名,甚至有时候更高,尤其在安徽。
俞敏洪:当时对中国科技大学有一种迷信是吗?
刘庆峰:尤其是喜欢数学竞赛的,当时的数学竞赛冬令营都在科大,杨振宁、李政道做的全国CUSPEA考试,每年在全国选10个人,有六年全中国第一名都是中国科技大学的,所以科大的数理很强。我本来在宣城中学,是我们地区当年唯一一所安徽省重点,当时最好的推荐是到清华,他们就把这唯一的指标给了我。高考成绩出来后,科大要我,那年清华大概是550几的分数线,科大是580多分,我是590几分,加上奥数加分就有600多分,而且那时候也被“两弹一星”的精神所激励,所以还是选了科大。
俞敏洪:你科大的同学也应该都很厉害吧,都是脑子转得极快的?
刘庆峰:我觉得中国这一批好学校的校友都很强,关键在于持续的努力。
俞敏洪:你在大学时候的学习跟语音技术有关系吗?
刘庆峰:我的导师王仁华教授,是当年从美国、日本留学回来的,回到科大后,他带了国外的设备回来,建立了一个实验室:人机语音通讯实验室。在科大,王老师是最早让研究生参加科学研究的,也是最早让本科生参加科学研究的,我是大二的时候被他挑到了实验室。
俞敏洪:是因为你成绩太好了?
刘庆峰:还可以,他要的就是数学、物理好,学有余力的学生。那时候我大一大二的数学、物理等等很多课基本都是第一名,后来王老师选了三个人进他的实验室,我是其中一个,我们本科毕业的时候,他就选我保送研究生,继续跟着他学习了。
俞敏洪:王仁华老师也是奇人,年轻的时候是足球队员,最后居然变成了科学家,变成了中国语音之父,好厉害。
刘庆峰:王老师今年80周岁,在给他庆祝生日的时候,我们讨论他当年的足球经历。他在华东师范大学,原来是上海青年队的,跟徐根宝他们都是同学,但他同时也很喜欢数学物理,所以一直喜欢搞研究。当时的足球经历对他来说,有一个很大的人生体会,就是他要当好一个队长和教练,就要懂得应该如何调动场上每个球员、每个团队的积极性,所以他在科大的时候会让年轻人参加科学研究。
俞敏洪:所以有团队精神在里面。
刘庆峰:对,而且他愿意让年轻人成功,所以他把他的毕生心血都传授给了我们,我们创业,他甚至主动说,庆峰,你的股份必须比我多,我在后台支持你。我们让他当董事长,他说我不当,你就当董事长兼总裁。后来我跟他说,那么多投资人,都是非常牛的人物,我才26岁,我怕我在董事会上hold不住啊,您是老教授、大教授,镇得住场子,他才同意。后来2008年上市以后,2009年他说还是想退了董事长,就跟我商量,让我去兼着。
俞敏洪:你也是少年老成,九几年创业的时候,你还是学生吧?
刘庆峰:一边读博士,一边创业。
俞敏洪:创业的想法是王仁华老师想出来的,还是你想出来的,还是大家一起讨论出来的?
刘庆峰:我在1995年保送研究生以后,王老师就让我去负责一个“863计划”的项目,单独做一个技术去参加国家863比赛。后来机缘巧合,我们跟华为合作,就又做了很多语音合成的创新。
(科大讯飞技术奠基人王仁华教授 图片来源于网络)
俞敏洪:当时你已经拿到语音合成的各种专利和创新了?
刘庆峰:对,那时候倒没有想过申请专利,但拿了国际首届国际汉语口语处理年会(新加坡)最佳论文奖,提出了很多新的方法。什么叫语音合成?就是让机器把各种文字读出来,且读得自然流畅。人从肺部出来的气流会通过声带的调制,变成脉动气流,经过整个声道后(像滤波器一样)再让声音传出来。当时做声音最大的问题是什么?如果你用一个一个的音节拼在一起,音质很好听,但会一蹦一跳的,像外国人在讲话,很不自然。如果用语音合成器把声音的音调变得很自然,音色又会受损,所以我们提了一个语音合成的方法,叫做“基于LMA的语音合成新方法”。本来这是日本研究机构拿来做语音调节的工具,王老师问我能不能把这个算法效率提高一倍,结果我一个月把它提高了十倍。他后来说,你有这个本事就用它做一个语音合成器。就在这个基础上,我们做了中国第一个达到3.0分的语音合成系统。
俞敏洪:说出来已经像人说的了?
刘庆峰:最好的播音员是5分,普通人是4分,能用的是3分,在1998年,我们刚刚做到了3.0分。就在这个时间点上,王老师叫我去华为跟他合作。
俞敏洪:当时包括像华为这样的公司,已经很需要这样的语音合成技术了?
刘庆峰:对。当时大家打114,想查新东方的电话号码?那边报一个个数字010什么什么,听着就不像人说的,但华为想要做的跟真人一样,就找到我们实验室合作。我做了两个月以后,它和播音员几乎可以混淆,本来华为只掏了三万块钱,后来作为奖励加了一万块钱,让我到华为总部跟他们联调,去了以后,我突然发现一个语音合成的办法。
语音合成最难的是什么?每个人讲话腔调都不一样,语气也不同,怎么在自然语流中找到一种流畅的方式把它合成出来,这一直是个很大的问题。原来很难找规律,后来我突然发现,数字串特别容易找规律,把所有的单字到二字、三字和更长短语的语调用数字串来模拟做,于是我提了一个方法:基于数字串外推的韵律构建模型、听感量化等语音合成新方法。我跟王老师一谈,他不光支持我赶紧做这个,还把实验室里所有跟语音合成相关的力量,甚至是副教授,都放在这个组里了,由我牵头,承担国家863项目。所以王老师真的是敢让年轻人担当,我跟他提这个项目的时候才24岁,他就把这个项目交给我了,带着十几、二十人的团队。
俞敏洪:这可以体现一个好老师的重要性,出生由不得自己选择,但上大学包括上中小学的时候,遇到一个好老师对一个人命运的影响是非常大的。
刘庆峰:后来想做产业化,也是我跟王老师共同的想法。我当时觉得,如果不做产业化,第一我们没钱买国际最好的设备,第二最优秀的同学们都想出国,你要留住他。当时很多人出国是奔着一年一万多美金的奖学金去的,那时候国内的博士生一个月才两三百、五六百,太穷了,所以我说必须要产、学、研合作,做产业化,挣到钱、留住人。
但我为什么不愿意出国呢?第一是因为,我在研究生阶段的时候,王老师把我送到北京,跟着中国社科院语言所88岁的老专家吴宗济老先生,他是赵元任先生的弟子。当时老人家就有一个梦想,因为那时候中国语音全部是IBM、微软的天下,我们自己的中文语音也没人家做得好,市场也是他们在掌握,所以吴先生一直说,中文语音技术能不能由中国人做到世界最好?中国语音产业能不能掌握在我们自己手上?语言是文化的基础,是民族的象征,他说“庆峰,这件事能不能在你手上实现?”我在劲松西区跟他一起干了三个月,天天早上到他家,晚上九、十点钟走,他把一辈子的积累全部传授给我了,所以,那时候是带着这种情结的。第二,那时候我们的算法技术,再差一步就能达到3.0、4.0,就能规模化应用了,王老师当时也已经把整个团队交给我了,说按照我的创新路径去做,如果我出国了,也不会有这样的机会。
俞敏洪:假设在这个过程中,哪怕是做同样技术的老师,如果不具备王老师这样的胸怀、气度、前瞻性以及对年轻人的爱护,说不定就不会有科大讯飞了。
刘庆峰:其实我那时候看到过,当时中国科技大学的本科是五年,1994年,我大四的时候就来北京实习,当时在国内有很多家做语音的,但经常一个实验室过几年就分成了两个,要么是老师之间不和,要么就是学生和老师闹矛盾、打官司,当年有几个做得还不错的,最后都因为心胸不够开阔,走了下坡路。确实如此,本来一个大学教授是要当CTO、首席科学家,还是当董事长、CEO,其实跟个人特质和能力有关,但有些教授什么都要做,什么都要抓在自己手上,导致自己成了孤家寡人,最后根本没法做产业化。王老师就完全放开,你们年轻人做得越大越好,只要把这个事业做成,无论是名还是利,他都愿意让出去。
俞敏洪:遇到这样一个老师,名与利都愿意让,而且隐在背后,了不起。坦率地说,我以前只知道科大讯飞有刘庆峰,不知道有王仁华。老人家现在80周岁了,你们在这20多年的合作中,有为了名利打架的时候吗?
刘庆峰:争过一次,那次我们在合肥成立公司,送了20%的股份给科大,科大奖励我们6个点,王老师说庆峰你应该比我多,我说那怎么可能,这是你的毕生心血,你必须比我多。最后争来争去,王老师4个点,我2个点,但他约定员工期权我必须拿大头。别的任何时候,从来都是王老师说,庆峰,还要我支持什么,他退休之后也是如此。
俞敏洪:我几乎没有见过你和王老师这样完美的合作伙伴关系,很多中国高科技企业做着做着,创始人、CEO、首席科学家就开始打架,有时候打着打着公司就没了,要么就是一拍两散,各自去做自己的独立公司了。在科技这条线上,比如语音合成以及未来发展的业务方向上,你跟王老师有过争执吗?
刘庆峰:基本上没有,但王老师一定会给我们踩刹车。我们比较往前冲,他总会提醒我们要做得更稳健一些,但基本上我们决定的事情,他都支持。这几年一直有人找我们,说讯飞是不是可以写本书?我们都拒绝了,因为我们觉得讯飞还做得不够好,我本人也还在奋斗中,所以不想写。但今年是我们的24周年,也是王老师80周岁的日子,所以在王老师80岁生日的时候,我们团队商量着写了一本《星火相传》。
这本书里写了当年王老师是怎么教书育人的,以及早期讯飞创业时的安排机制以及故事……每次看完我都心潮澎湃。我们每次培训新员工时会讲到科大讯飞的使命、愿景、价值观,而创业早期的故事往往是最打动人的,所以这本书本身是先给我们自己看的。同时,这本书也可以给很多想做科技成果转换的,特别是高校的科技成果转换,想做产、学、研结合的团队,带来不少借鉴意义。
此外,大家关心的人工智能、语音发展历史,也在书中有对应的板块。我觉得这本书最大的特点是,我们对王老师最早的这些学生、我们的创业团队,还有原来国家863项目的老师们,做了原汁原味的采访,没有做任何包装和延伸,我们想尽量回归本质、保存真实。
俞敏洪:之前他们专门给我打印了一本,等出版以后,大家可以买来读一读,可以看看师生之间的友情和对中国科技的热爱,如何打造出了科大讯飞这样一个奇迹。
刘庆峰:当年决定产业化的时候,王老师到北京跟计算所的李国杰院士聊应该怎么产业化,李院士就跟王老师说了一句话:最好不要又想当教授,又想当企业家。所以那时候本来科大有领导想让我们留在学校,一边兼职教授,一边做企业老总,我们坚决说不,把关系编制全部都拿到了开发区,科大的年轻老师想加入进来,也需要先辞职。
为什么?不要让员工感觉脚踩两条船。包括后来我们可以申请各种荣誉,但我们还是觉得把事业做出来是最重要的,可要可不要的荣誉就尽量不要了,可做可不做的宣传、演讲也尽量不要做了,这才是回归根本。
俞敏洪:今天的语音合成已经5.0了吧?
刘庆峰:中文在4.7到4.8之间,英文大概是4.5。
俞敏洪:几年前我听语音合成的时候,比如朗读中文或者英语,依然感觉不是那么完美,尤其是朗读英语,语音、语调等等都有差距,但今天我再去听,感觉基本跟真人朗读差不多了。我现在用的一些阅读平台已经添加了AI朗读技术,我有时候如果用手机看书看累了,就可以转化为语音朗读来听,这个AI朗读当然还没有达到5.0播音员的声情并茂,但它的语音、语调和表达、断句已经比较舒服了,像这些平台背后的技术,是不是科大讯飞提供的?
刘庆峰:应该绝大部分是我们提供的,我们占了70%、80%的市场。比如新华社、人民日报、学习强国、冬奥会、冬残奥会、大运会、亚运会,以及今年最大的体育赛事布达佩斯田径世锦赛,里面的多语种播报合成全是我们提供的技术。
现在这种语音合成技术相对比较成熟了,但下一步还要继续做什么呢?比如一篇文章来了以后,它能自动判断角色,用不同的男声、女声来播,并且能自动配上背景音乐,自动增加音效,比如刮风声、下雨声、脚步声,在此基础上,再配上虚拟形象,有面部表情,有手势、有动作、有衣品和背景画面。目前这个功能在讯飞星火里已经在逐步去实现了,今年8月15号发布以后,已经有十几万人在用了。接下来,再下一步就可以做个性化合成,可以模仿俞老师的声音、模仿我的声音。当年我们在高德导航中模仿林志玲说话,需要到台湾录一个礼拜的声音,后来模仿郭德纲,只需要一天的声音,再往后只需要一个小时,现在的极限情况是一句话就能模仿,但声音素材越多会越像。
俞敏洪:比如我出版的这些书,我录一段我朗读文章的声音给你,我所有的书就都可以变成我的声音来朗读了?我不标准的普通话也能模仿出来?
刘庆峰:对,可以。语料越多模仿得越像,比如从现在开始,把老俞闲话的所有对话都给我们,就可以做得很好。此外,大家会看到ChatGPT4的对话非常自然,甚至有嗯嗯啊啊的对话感,从核心技术来说,我们都能实现,主要问题还是在于语料录制形式的问题,ChatGPT4用的都是对话式语料,训练出来就会有对话感,但如果你用它去读一篇小说,它不会读得很好。将来我们就要去提高语音表现力、个性化、场景化的合成,让闲聊的时候是闲聊的,演讲的时候是演讲,跟不同的人说话能给人不同的感觉。
俞敏洪:比如我的声音,我朗读是朗读的风格,我演讲是演讲的风格,我们对话是另一种风格,只要把不同的风格应用进去,就能在不同的场合达到比较完美的呈现?
刘庆峰:对,现在我们已经有工具可以让大家挑选风格、把语调变慢了,我们可以自己定义到底是要欢快的、悲痛的、正式的、活泼的还是性感的语音风格。
最早的语音合成叫文本到语音,即TTS,就是Text—To—Speech,再往后要进一步从意念到语音,我们现在在做一些医疗场景中的需求,根据脑电波,工具帮你说话,那些不会说话的人想翻个身、想喝水,以后就可以由机器帮他说,从意念到语音。
俞敏洪:这就很了不起了,能帮助到很多的人。现在有的好的阅读APP还能提供真人朗读和AI朗读两个选项,但我现在反而是以AI朗读为主,因为AI阅读速度更快,而且它的调子感觉比较平稳。常常有人问我,俞老师你怎么能读这么多书?其实我一年里有接近一百本书是听完的,不是读完的,因为你路上的时间、散步的时间、上下火车的时间,你没有办法静心阅读,这种时候就可以听。所以对我们来说,这个技术已经到了能让我的学习变得更便捷的程度了。
刘庆峰:我们跟残联合作了一个“三声有幸”的公益计划,给一些盲人朋友提供语音合成和识别技术,他们可以基于这个技术去听、去打字,进而成为写作高手,甚至可以做电商。盲人虽然看不见文字,但他们听文字的效率很高,对他们来说,语速比一般人快一倍以上,他们都能听清。
俞敏洪:我也有两三个盲人朋友,他们给我发文字信息,我就说你们留语音就行,他们说我们都是用语音自动转文字的,而且几乎没有错别字。
刘庆峰:现在回想起来还是蛮感动的,1999年创业的时候,那时候我们虽然做到了业界第一,但我们只有中文语音合成,后来我们代理了美国Nuance的技术,把语音识别和英文语音合成、多语种合成结合在一起。当时Nuance是所有语音技术的标杆。
俞敏洪:今天Nuance还在吗?
刘庆峰:还在,微软大概花了100多亿美金收购了。当时它是三个语音公司合并的,我们一开始都是在代理它,到了2007年,我们决定必须自己干了。
俞敏洪:因为当时觉得,如果继续合作下去,我们这边反而会处于弱势?
刘庆峰:对,当时我们先产业化的是语音合成技术,但很多场合会更需要语音识别技术,我们那时候一致认为,讯飞必须往能听会说的方向发展,让机器像人一样能听会说,实现人机信息沟通无障碍,这也是我们最早的梦想,所以我们决定自己做。我们当时可以先告诉Nuance,代价就是他们不再让我们做代理,或者我们做出来以后再告诉他们。我们内部讨论之后决定选前者,毕竟人家支持你做中国总代理,你却悄悄自己做了,国际友人会怎么看?所以我们直接告诉他们我们要做,他们就把代理拿走了。语音识别的技术难度很大,但我们做了两年之后,做到了业界最好。
后来我们又做了翻译。当时很多人都说,翻译根本就没机会了,因为Google、百度都有那么多文本翻译的语料,讯飞还做什么翻译?我说这事非干不可,这也是我们早期的梦想,我们就做了语音到语音的翻译,做到业界第一。现在我们的文本翻译也很厉害,在今年国际最权威的机器翻译大赛IWSLT上,我们拿了全球第一,而且在大学六级考试中,已经超过了99%的大学生。
2014年,我们确定了人工智能战略,让机器能理解、会思考,做认知智能。其实中国的第一个《人工智能中国宣言》是在2016年3月,在深圳,由我们牵头,和一批顶尖公司一起发布的,当时工信部分管部长亲自出席。我们讲到了人工智能的核心技术、标准、法律、伦理、人文等等,那时候我们就定了,要进一步让机器能理解、会思考。所以2017年,新一代人工智能规划出来后,国家先设了四大开放平台,讯飞和BAT,后来科技部在科大讯飞专门成立了认知智能全国重点实验室,这个认知智能就是指机器学习推理和决策的能力。
所以,为什么去年11月30号ChatGPT推出来后,半年后我们就推出了讯飞星火,而且快速迭代,目前是星火3.0,比ChatGPT3.5还要好,但离ChatGPT4还有差距,在复杂的推理、多模态能力、小样本学习上还有差距。这些差距的主要原因是什么?不是因为我们的算法不够,是因为完整训练10000亿的浮点参数模型需要时间,我们在10月,基于国家算力构建起了能训10000亿参数的模型,所以大概明年4月,我们能做到今天GPT4的水平。
当然他们也会陆续推4.5、5.0,所以我经常告诉大家,中国这么多院士和企业,我们在认知大模型方面,大概差美国半年左右,不会被它彻底甩开,但也有一个艰难的赶上的过程。我们有信心能把它做的更好,尤其在教育、医疗、司法等很多专业领域。11月23号,国务院发展研究中心下面的国有经济研究院针对大模型最常用的七个领域做了测试,给出的结果也是如此,讯飞星火是中国最好的,整体比GPT3.5强,有少部分地方比GPT4强,但整体跟GPT4还是有差距。所以,今天我们要看到差距,认识到不足,但也要有信心,迎头赶上。
俞敏洪:在语音合成、语音识别、人工智能认知模型方面,中国现在超越于世界之上的是哪些方面?离世界有差距的、需要我们去追赶的有哪些方面?
刘庆峰:比如认知智能,全世界有一个非常有名的机器阅读理解比赛,由斯坦福大学牵头的Squad比赛,大概有10万篇英语文章片段,来自两万篇维基百科,人们看了以后就向机器提问题,机器看了以后回答人的问题。讯飞星火是全球首个超过人类平均水平的人工智能,这是我们走在前面的。这个可以运用在什么地方呢?比如高考作文评分,现在已经达到了阅卷专家,甚至比阅卷专家更标准、更公平的水准,目前已经在12个省的高考语文作文评分中使用了,这也体现了教育部考试院和各地想用新技术推动教育公平的探索决心。雅思英语的口语和作文评分,我们也比人准。
俞敏洪:这些技术是我们自己创新研发出来的吗?
刘庆峰:是的,我们拥有完整的自主知识产权。冬奥会、亚运会、大运会都在用我们的技术,今年世界三大体育赛事之一的世界田径运动会,在匈牙利布达佩斯召开,他们需要给他们的虚拟人物做语音合成播报,且要能支持多语种翻译,在全球招标中,我们最后PK掉了美国、欧洲,中标了。中标以后,因为我们技术确实最好,所以我们代表中国,牵头把欧洲为主的12个国家的18个本地人工智能龙头整合起来,跟美国人“打群架”。
再说语音识别,今年语音识别中最重要的技术就是抗噪,这些声音会干扰语音识别系统的准确性,导致识别错误率增加。而且,很多人听力下降了,如果只是单纯的抬高耳机的声音,你听着就很痛苦,因为正常声音变大的同时,噪音也变大了。像我们现在做的耳机已经拿到了医疗许可证,里面就用了我们最好的抗噪技术。前段时间,我们获得了该技术在工业领域DCASE全球工业声纹挑战赛冠军,我们的机器可以听懂各种机器设备运转是否正常,各种产品是否噪音超标,是否有瑕疵。李强总理视察时我们就给他看了工业听诊器,能够达到什么程度?普通人讲话大概70、80db,但我们在130米之外都听得清清楚楚,国外最好的技术只能听到80米。一般蚊子的声音大概30db左右,音乐音箱底座噪声是20db,我们在7米以外就能够精准成像,目前是国际上最好的。
再讲到医疗,我们今年发布了医疗大模型,测试结果比ChatGPT4更好。这个医疗模型最重要的是什么呢?中国有1300多万一线医生和医疗从业人员,有医师资格证的有300多万人,有全科证的只有30多万人,国家一直在大力培养,但培养周期很长。我们就让机器学了53本医学博士要学的教科书,几百万篇医学论文和电子病历,让机器参加国家执业医师资格考试。国家执业医师考试满分600分,分数线360,我们考了456分,超过了96.3%的医生。现在这个机器已经看了7亿多人次的病,现在能考多少分?525分。每天看70多万病人,它天天在学习。而这个机器能够帮助到很多基层医生,这也是极为迫切的一个应用方面。
俞敏洪:这就是人工智能大模型的好处。
刘庆峰:医疗大模型的技术底座跟ChatGPT4还有半年的差距。算力方面,国内已经有厂商能够做得不错了,基本上不会被卡住。我们把算法和数据再堆上,算法形成我们自己的独特优势,再形成领域优势。通用大模型底座整体咬上,不被彻底甩开,在行业领域中去超越,我对这是非常有信心的。
俞敏洪:像美国现在对我们各种卡脖子,这对科大讯飞的发展会有影响吗?
刘庆峰:影响也不小。2019年10月7号,继中兴、华为之后,美国又将8家中国科技公司列入了实体清单,其中一家就是我们。在那之前,2018年底、2019年初,我正带着团队到美国、欧洲,准备大规模国际化,出现这个情况以后,我们就赶紧收回来。但在2019年、2020年、2021年,我们仍然保持了30%、将近40%的增长。
俞敏洪:这是在国内增长的?
刘庆峰:总体上市公司的业绩。中间还有个变化,之前卡脖子的时候,美国给出的限制是,产品和技术中美国技术占比不超过25%的,我们才能买,超过25%就不行。但去年,美国再次极限施压,在中国几百家企业都被列入实体清单后,美国又挑出了28家进行极限施压,包括大学、科研院所和企业,讯飞就在其中。这个极限施压就是,只要涉及到美国技术的产品,都不能买。所以我必须推进人工智能的训练、推理全国产替代,我所有的学习机、翻译机、办公本才能完全解决卡脖子的问题。当然,本来里面的核心技术都是我们自己的,只是这些核心技术要运行的那些芯片、配套设备,还有一些软件,过去有一部分是美国的,因为被限制了,现在就必须完全脱钩。在完全脱钩的情况下,本来大家以为我们要完蛋了,或者至少“腰斩”,确实在去年四季度,我们业绩也下滑了20%,今年一季度下滑了17%,但今年二季度和三季度我们稳住了,到四季度已经有正向增长了。
俞敏洪:稳住的主要原因是我们在系统、在各种机器中用的芯片已经国产化了?
刘庆峰:第一是核心技术已经国产化了,第二,在2019年被列入实体清单之前,我们就一直在准备,预判可能会有问题,虽然产业链大部分都国际化了,但核心技术都掌握在我们自己手上。2019到2022这三年,我们做了更多的国产化和产业生态合作,所以去年被再次施压后,我们才不会出现重大问题。
我特别自豪的是,在业界现在已经公开、能测、能下载的大模型中,讯飞星火是唯一一个在国产算力平台下训练起来的,别的可能是用国产推理芯片,但是用英伟达训练芯片训练的。去年10月7号,美国规定中国不能买英伟达A100,只能买A800,今年10月17号,连A800也不给买了(A100、A800均为AI芯片)。因为讯飞星火是在国产算力平衡下训练出来的,明年1月到4月,还会有两个重要版本升级,这些都是完全自主可控的,所有代码、数据、算力都完全可控。所以我才说我们在大模型上已经不会被美国人卡脖子了。
俞敏洪:不管怎么卡脖子,讯飞的发展基本还是安全的?
刘庆峰:对,因为这种卡脖子,你的发展速度肯定受限,但基本是安全的。
俞敏洪:你觉得从速度上到布局上,这种卡脖子的行为对中国科技发展会有什么影响?中国需要多长时间才能全面突破,到最后甚至超越?因为我常常觉得这既是一个挑战,也是一个机遇。
刘庆峰:其实这种打压来得早一点比来得晚更好,来的越早,给我们更多的准备时间,而且这毕竟是迟早会发生的事情。以大模型为例,预测到2026年,全世界80%的企业要用到认知大模型,将来几乎所有的代码工作都是零代码、低代码,软件变成连接虚拟和现实之间的工具。如果我们现在没有这种警惕,在各方面都用国外的大模型,等到那时候再卡脖子,你整个银行就崩掉了,电力就崩掉了,所有国计民生都崩掉了。而且这还涉及到认知域作战、国家网络舆情和国家安全,所以我们必须自己干。如果不是前几年我们做了准备,今天一旦大模型战略机遇来了,把你脖子一卡,我们整个完蛋。现在我们和西方虽然有差距,但至少我们在一部分领域扛住了,其他领域我们还有信心赶上。
俞敏洪:一部分领域我们扛住了,另一部分我们要追赶,但假以时日是有可能追赶上的。
刘庆峰:但我特别想说,我们现在差距还是非常巨大,这一点一定不能盲目乐观,我们在局部领域确实有可能超越,但在非常多领域还是会受到比较大的制约,差距很大。从长期看,因为这些人工智能大模型的出现,GPT4也好、GPT5也好,很多领域已经彻底改变了现在以人力和时长为基本表征的商业模式。它会颠覆整个研发、生产、科研的过程,但它也并不一定是最后的形态,将来可能还会有更大的变化。我们现在能跟上这一波,能在部分专用领域上有所超越,但如果中国不做源头上的创新,将来可能会被彻底甩在后面。我们现在的基础研究氛围并不是太好,偏急功近利,偏商业导向,还是得有一批人愿意去做基础研究,那些赚了钱的企业还是要去做源头的创新,这一点像Google这样的公司做得真的很好。
俞敏洪:科大讯飞赚的钱也不太多,但股价还不错。你们通常会把利润用在源头创新上,还是用在急功近利上?
刘庆峰:从创业到现在,包括上市以后,每年基本有20%左右的销售收入会用在研发上。我们的毛利大概50%左右,所以我们赚到的40%都用在了研发上,这个比例能在5%以上就算是还可以的科技企业,所以我们但研发投入还是比较大的。
我们的研发投入有一个“721”的说法,70%用在关键技术和产品突破上,里面也有很多跟源头创新相关的,大概2/3跟产品有关,1/3和核心技术有关;20%用在未来三到五年的关键技术研发上。我们为什么能在2011年,第一个在全球推出语音云平台,宣告手机的语音听写时代正式到来?因为2006年深度神经网络的基本理论框架正式提出来之后,我们就跟上了,所以我们是全球第一个把深度神经网络用到语音识别领域的公司,后来的图象识别、机器翻译、认知智能,我们才能跟上,而这就跟我们这20%的投入有关;还有10%就是用自由的眼光看更远的未来。我们在2021年的国庆战略务虚会上,专门给所有高管发了一本书,爱因斯坦的《我的世界观》,里面就提到“要用自由的眼光看更远的未来”,要有一批讯飞的科学家,能像当年18、19世纪的欧洲贵族一样,完全源于热爱而去做看向未来的创新。
俞敏洪:即使他们一辈子什么都没发明出来,也不反悔?比如有20个贵族性质的科学家,哪怕其中只有1个科学家有了1个突破性的理论和发现,对我们来说都是合算的?
刘庆峰:当然是。为什么很多企业不愿意做基础研究?因为基础研究风险太大。前年科大讯飞全球1024开发者节的时候,我的发言题目就是“听见花开的声音”。创新就像一株花,大家都喜欢这个成果,如果你想把花掐回来放在瓶子里,它过几天就枯萎了。它必须经历种子在黑暗土壤中孕育的过程,需要你天天浇水,你也不知道它哪天能冒出芽来,但如果你在过程中没有坚定的信念去相信这个种子和土壤,你就不敢继续浇水。当然,即使真的发了芽,它也需要(像小草)一路成长,到最后才会含苞欲放,直至怒放。所以我们说“听见花开的声音”,就是想强调源头创新,中国要有这样一批企业,能从种子期开始做起。所以我们特别强调产、学、研合作,我们跟科大、清华、北航、中科院、社科院的几个所都建了联合实验室,在没有被列入美国实体清单之前,我们还跟MIT、普林斯顿、斯坦福有相应的合作。
俞敏洪:现在很多合作都终止了?
刘庆峰:都终止了,因为美国人不让你做,好在我们主要的创新都是在国内做的。
俞敏洪:这真是特别了不起。
俞敏洪:现在我们研发出来的一些基础技术,是不是已经应用在中国很多公司的底层上了?尤其是跟语音识别、语音合成和认知模型相关的?
刘庆峰:是的,我们收入中有很大一块就来源于技术支持。
俞敏洪:我们有一款辅助老师、学生的To B学习机,也用了你们的技术。
刘庆峰:那我们很荣幸。我觉得要做好教育产品,技术只是一方面,更重要的是要有教学理念做引领。其实中国教育在未来一定要实现评价体系的改革,如果你不能成就导向多元化,不能天生我材必有用,大家都盯着清华北大,那一定会造成内卷,你不管做什么其他的努力,焦虑感也不会消失。理念是一方面,第二是教育的本质。我们常说学习机可以帮助孩子学得更好,能成为老师的教学助手,但根本上,老师是什么?是人类灵魂的工程师。爱因斯坦曾经说过,教育的本质就是忘记了在学校所学的具体知识之后剩下的东西,所以人的基本学习能力、基本价值观、基本探究精神、好奇心、幽默感,才是关键。
俞敏洪:我记得科大讯飞最初做的是To B业务,相当于为企业服务,现在你们也做了大量的To C产品,这里面有一个什么样的理念转变,还是说公司成熟到一定程度了,觉得能为C端客户提供特别好的服务了?
刘庆峰:我们还是根据用户的使用场景,结合技术落地的需要来出发。比如翻译机,现在我们的翻译机能翻译80多种语种,覆盖200多个国家和地区,而且是从语音到语音的翻译,拿着这个机器到全世界旅游都不用怕了。
俞敏洪:而且这种即时翻译,至少在英文翻译上,几乎没有太多的错误。
刘庆峰:为什么要做翻译机?如果在手机中用软件,我们也可以提供,但你的大部分应用场景是嘈杂的,而且很多时候是离线、无网络的,这个时候翻译机就非常有用。
俞敏洪:上个礼拜亚布力企业家论坛在新加坡开了一个合作峰会,刚好你为每一个企业家提供了一台翻译机,我就发现大家开会的时候都会把翻译机拿在手里,基本不听同传了。字幕出来以后,我看了错误率,也就是1%、2%。
刘庆峰:国际上的比赛叫IWSLT(国际口语机器翻译评测比赛),科大讯飞拿了2022年的冠军。国内有一个CATTI考试(国家翻译资格证),是人社部和外文局联合组织的考试,这个考试中,三级能当同传,二级是高水平同传,我们已经通过了二级的技术测试。
俞敏洪:二级的同传水平?
刘庆峰:对。这个翻译机还有一个好处,它是双屏,我在这翻译,对方也能看到文字;还比如,在开会过程中,他说英文,你担心会漏掉,或者有几个单词你反应不过来,没关系,它全给你翻成文字了。现在还有很多孩子用它上网课,听英文资料,把这个翻译机往电脑上一接,所有多语种资料马上就能配上中文字幕。
俞敏洪:现在很多中国孩子去国外上高中或者大学的时候,还是会有上课听不懂的情况,会容易错过关键信息,如果在听课的时候把这台机器放旁边,就可以起到两个作用:一是你听不懂的时候,可以对照两种文字,可能就懂了,二是所有老师讲课的内容都会被记录下来,你回去就可以复习,既可以听着复习,也可以看着复习。所以,除了用于旅游,翻译机也是一个很好的学习工具。
刘庆峰:对,虽然翻译机的屏幕看起来比较小,但它连接电脑之后,就会在电脑上增加字幕,这就很方便查看了,而且在这个过程中,我们还支持多语种,日语、德语、其他语种都能翻译出来,非常便于大家听网课或者看材料。我们下一步还会实现一些新功能,比如一个翻译机可以拖着几个耳机一起开会,你说英语,我说俄语,他说德语,她说法语,我们可以自由交流,它能直接将其他人说的话翻译成我需要的语言。
俞敏洪:这个东西可以帮助到太多人了,除了旅游场景,商务场景、学习场景都非常实用。讯飞听见也很有意思,讯飞听见是一个软件,我就经常在用,因为有时候我会就着某一个主题自说自话,通过讯飞听见把它录下来,再转成文字,一会儿就全部转完了。我曾经做过一次《滕王阁序》讲解,不知不觉就讲了六万多字,我就边讲边用讯飞听见转成了文字,除了我自己普通话发音不标准的地方,还有“嗯”“啊”的地方以外,剩下的六万多字的文字版就发表在我的“老俞闲话”上了,非常方便。
刘庆峰:我们还有实体的讯飞听见,在我们访谈的过程中,它就相当于一个麦克风,而且它可以过滤噪音,留存的声音很清晰。此外,它会在后台自动将录音转成文字、自动翻译,现在也会自动帮你写成待办事项、写成新闻通稿。
我们的助听耳机也很好,我周围有很多朋友,有些朋友的父母亲,年纪大了,就听不见了,他也不跟子女对话了,因为他三聋四哑的,就不想讲话。戴上这个助听耳机,他就能听见了,人都活跃了很多。因为我们有最好的抗噪技术,我们把这个技术放在耳机中,有效过滤掉背景噪音,提升声音中有信息的部分,如果你在手机上操作一下,可以更精准地帮你去除背景噪音,他就会听得更舒服。而且这个耳机的设计也比较时尚,不用戴一个大头盔,所以这对很多年长者的生活质量、家庭氛围都非常有帮助。去年我们刚推出来的时候,春节前就卖断货了。
俞敏洪:这次去新加坡,新加坡的总统接见我们,我就戴了这个小耳机,有人就会问我,为什么这么隆重的场合,你还要戴这个白色小耳机,我就马上说,这个是助听耳机,大家就明白了,居然还有这种外挂的助听耳机,因为大家一般都只知道那种塞到耳朵里的助听器。
刘庆峰:我们的办公本也很不错,比如在我们沟通交流过程中,或者是听一个报告,很多时候我们认真听就记不全,认真记就没法跟别人一起思考,这个办公本就可以语音识别,能记录下来所有的内容并且转成文字。此外,在听的过程中,你如果对什么内容很感兴趣,就可以先(用笔手写)记录下关键词,后续再在办公本里点击一下,就可以找到对应的录音,便于回顾。而且这个内容一辈子不会丢,都存在后台。现在用大模型,还可以自动生成整段录音的摘要,两个小时的会,可以变成几百字的摘要。
俞敏洪:它不会摘错吗?比如把我们讲的笑话都摘出来了?
刘庆峰:基本不会摘错,你也可以手动修改。而且做会议记录的时候,如果我认为这件事情是要待办的,我就画个圈,如果是我要关注的,我打个五角星,它们就自动划到我的日程表里了。
俞敏洪:这个笔记能够自动上传是吧,比如上传到我的电子邮件?
刘庆峰:对,它和电子邮件是完全打通的,你还可以生成二维码让其他人拍照分享。包括你写作的时候,你可以用语音、可以用手写,也可以拍照以后自动识别,最重要的是黑白屏不伤眼。
俞敏洪:他们说过一段时间可能彩色墨水屏也要出来了。
刘庆峰:对,现在我们也有彩色,但这种黑白屏更适合办公用。其实在办公场景,讯飞星火大数据模型也非常实用,它能生成多风格的长文本,语言理解、逻辑推理、知识问答、数学代码等等。对于工作人员来说,它有一个PPT插件,到了年底,你给它几个素材,它就帮你把PPT的基本模板写好了,你再修改修改即可。它还可以给孩子编故事、讲故事,比如孩子想听孙悟空跟熊大和科大讯飞董事长一起跟俞老师直播的故事,它就能编出一个来,孩子还可以不停地提要求,相当于孩子不仅仅是听故事,他还参与了故事的创作。
俞敏洪:我来体验一下星火大模型。请为刘庆峰写一首情诗,以北京下雪天为主题——
“在京城的冬日里,雪花纷飞是画笔,庆峰你我手牵手,漫步在这白茫茫的世界。雪中的故宫更显庄严,千年的历史犹如昨日,你的笑容如阳光般灿烂,照亮了我心中的方向。胡同里的老北京风情,与你共度这美好时光,骑着自行车穿越繁华,感受这座城市的魅力与温暖。夜幕降临,霓虹闪烁,我们漫步在长安街旁,你的眼睛中闪烁着星光,让我为你献上最美的歌唱。庆峰,你是我心中的英雄,在这个冬天,让我们一起追逐梦想,在北京的雪地里留下我们的足迹,让爱情在这座城市永不凋零。”
一秒钟就写出来了,而且一句错话都没有。
刘庆峰:最近大家一直问,说中国大模型是不是写诗、作画、古文比较强,自然科学怎么样?其实我们的主要精力反而在做代码、做科研助手、做科普上。
俞敏洪:再试一下,用《史记》文体写一首赞扬刘庆峰、科大讯飞的话——“商海之璞,领袖之才,潜心研究语音技术,开创智能交互新纪元。”还是有点意思。
刘庆峰:星火可以自己读,不过你读的我们更愿意听。我们其实希望能跟更多不同领域的伙伴合作,2017年《新一代人工智能发展规划》出来之后,到目前为止,我们作为国家首批四个人工智能开放创新平台之一,我们开放了600多项AI原子能力和参考设计,覆盖语音合成、语音识别、机器翻译及各个领域的应用,现在已经有500多万开发者团队参与合作了。今年5月6号,讯飞星火发布以后,开发者团队又新增了150万,他们(开发者)告诉我们,他们在什么地方,有什么能力,想用我们哪项技术做什么事,我们同意之后对他们开放接口,他们再基于我们技术开发新应用,目前已经开发出来30多万新应用了。今年特别有意义的就是,这30多万应用中,有一半跟工业、产业有关,跟产业升级有关,以前大部分都和趣味、社交、理财有关。尤其现在我们的AI编程能力大幅提升,所以很多企业都开始加入了。比如太平洋保险,他们专门给我们成立了一个“数字劳动力联合实验室”,研究大模型怎么赋能现在的数字劳动力市场;只要你愿意,中国移动5G通话助手未来就能在你刚打完电话,就给你梳理好了会议纪要和待办事项,能大幅提高每个人的效率。
俞敏洪:这太了不起了。
俞敏洪:你作为一个科学家,26岁的时候还在读博士,怎么敢于去挑一个公司CEO的担子?到今天为止,我也认为你是我认识的最优秀的企业管理者之一,你是怎样将自己从科学家身份转变成了一个优秀的CEO?
刘庆峰:首先,作为一个企业管理者,我还有很多不足,比如讯飞虽然做了很多创新,但在产业规模和商业模式上还要不断探索,包括如何把核心技术实现到产品上,这其间其实有很大的跨度,还有很多需要学习。
但回过来想,我最早不想当总经理,也不想当CEO,我们在科大读书的时候,就想着只有搞算法、搞研究才是创新。王老师当年在科大当了分管科研的系副主任,干了一年就不想干了,他也觉得做研究更好。所以我们那时候觉得做管理也好、卖东西也好、跟各种人打交道都是很耗费时间的,这也不是创新的本质,我们就想做核心研发。
当然,那时候我们想做产业化,要留住更多优秀人才,我当时是班长,也是实验室的大师兄,我就把科大校园网络布告栏BBS里8个跟电子计算机相关的版面的其中6个版主都挖过来了。1998年,我刚读博士,我们就开始跟福建合作组建研发基地了。我的梦想跟王老师一样,我们要做中国的源头创新,可后来做了一阵以后,我们发现,这样的新技术成果,是需要时间的,如果我们跟其他人合作且对方也不懂技术,对方对技术的长期发展没有预判性,今天做PDA,明天做电脑软件,后天做一个工商查询系统……如果总是变,技术就没办法积累,市场上也手忙脚乱的,会做得很痛苦。结果我们干了大概不到一年,那帮小伙伴就说,你要不当CEO,我们就准备继续出国了,散伙。王老师跟我说,中国科技大学的学生单个能力都很强,从来没有这么多优秀的人能团结在一起干同一件事,他说,我认为这事,你们能成。所以,1999年,讯飞正式成立。
俞敏洪:你当时已经是这个年轻团队的核心力量了?
刘庆峰:因为是我组织他们的。后来让我下定决心的是一件事,当时中国科技大学算法很强,中国科学院声学所对声信号研究很强,社科院语言所对实验语音学研究很强,我们都要参加国家863比赛,都要竞争。我们就通过公司机制把大家团结起来,给经费,比863给的还多,给相应的利益分享机制,科研成果的荣誉归他们,但由我们统一产业化,这样一搞,大家就都特别愿意(由竞争走到合作)。把这个事做成以后,我就发现,让更多的年轻人在一起做技术,比我单独做研发做得更快。所以我那时候就安慰自己,过去对我来说是做研究做得越准越好,相当于一个神枪手越打越准,但是要打赢产业这个仗,可能需要有人来当元帅,指挥一批神枪手朝同一个方向射击,那就让自己试一试,当这个CEO吧,然后一干就干了这么多年。
俞敏洪:你领导着一群和你年龄差不多的年轻人一起做事业,过程中有过强烈的斗争吗?
刘庆峰:我们团队总体来讲都个性鲜明。所以我后来一直说我创业最大的体会就是--宰相肚里得能撑船。你得容得住人,原来我们做研究的时候,有些人我还不愿意和他交往呢,觉得他没有我强,但如果你是创业,只要他比你能找到的其他人更优秀,他就是难得的人才,你就得包容他、鼓励他,而且让他讲真话。
在2001年,联想投资进来以后,我们团队当时的17个核心骨干,除了一个在试用期之外的,到了上市之后的十年,基本上都没有人离开。后来这两年,因为我们被列入美国实体清单,有一部分业务要往外分流,也有一部分人因为身体原因,就有几个骨干出来,其他的核心成员都在讯飞,我们的凝聚力还是不错。这里面我认为最重要的三件事:第一,大家对事业发展的梦想是一致的,我们真的有共同的愿景,让机器能听、会说、能理解、会思考,不仅要做中国第一,还要努力拿全球第一,最后发现不光要拿技术第一,还要真的改变世界、教育、医疗等等。
第二,确实我们的企业文化还可以,相对能够说真话、相对包容,后来我们专门提炼了“421克拉价值观”等等。第三,越是艰难的时候,一把手得撸起袖子在前面带头干,而不是让兄弟们干,你去干别的事。我几乎所有身家都在讯飞,我们2008年上市到2019年,上市十年我一分钱股票没卖,到目前为止我增持了4次,都是为了使公司保持股权架构的稳定,或者股灾的时候,响应号召把钱投进去(后来卖股票,也仅限于归还增持入股的贷款本金)。
俞敏洪:过程中有团队成员离开了,或者卖了股票就走吗?
刘庆峰:我们最早是有13个实控人,基本上除了最近几年有退休的,他们卖了,其他的都没有。
俞敏洪:大家基本还是保持了一致共同的团队精神。
刘庆峰:是的。
俞敏洪:你们当初的13个人,现在还有多少人在公司干?
刘庆峰:还有一半以上,将近10个。如果是说在科大讯飞生态中的话,那我们几乎都还在,就有一两个不在。我们被美国列入实体清单后,有很多限制,我们还有一些外围要做的探索性业务,不适合放在上市公司做,所以我们依法合规地让一些人员在外围去做,但是对公司也很有帮助。
俞敏洪:是的,必须有这样的互补。你当了这么多年科技公司的CEO,你觉得作为一个科技公司的CEO,最需要做到的是哪几点?
刘庆峰:我觉得我做得不好,但我觉得,第一重要的是对未来战略的洞察力,这是CEO最需要的,我们这几次还都跟上节奏了。
俞敏洪:有人说科大讯飞能跟上节奏就是运气而已,你这么认为吗?
刘庆峰:我认为绝不是运气。我是第一个在正和岛说“在风口上猪也会飞”的,如果你真是个猪,风一停你肯定摔死,所以绝不能当风口的猪。我们1999年创业的梦想一直没变,2013年、2014年定的“让机器能听会说、能理解会思考,用人工智能建设美好世界”,一天没变。在源头创新上,这次认知大模型就是我们2017年时建的认知智能国家重点实验室的一个延续,这就是我们想干的事,只不过这个事情的技术在不断突破,过几年就会有新突破,大家就会说,哇,你又抓住风口了,但过两年可能又会有一个艰难的爬坡期,过两年又上来。
任何事物的发展都是波浪式前进的,甚至说是在走弯曲的直线,高含量的技术曲线都是先概念导入,接着到了黄金期,然后泡沫破灭,所有人发现怎么没有那么好,然后再开始慢慢爬坡,最后苦尽甘来。所以, 2017年那一波深度神经网络我们跟上了,但实际上我2006年就开始关注了,只不过到了2016年,大家才看到我们做的事情而已。从深度神经网络到卷曲神经网络到对抗神经网络,这些一步一步的突破,都是自然而然的技术延伸。这一次大模型是GPT,从1.0、2.0、3.0,现在是3.5到4.0,逻辑上我们早就知道了,甚至是预训练的方法,都是我们一直在跟踪的。所以我觉得作为CEO,第一就是,战略预判完之后,你得知道什么技术是最重要的,你必须紧跟甚至提前布局。
第二是,得想办法将这个技术进行商业变现,不然你就饿死了。这方面我们做的很一般,也还在不断学习。其实我们在前年的时候,利润还有15亿,缴税16、17个亿,那时候真是很好,如果不被列入实体清单,可能现在就能有20多个亿了。这两年因为疫情,特别是被美国极限施压,逼着我们用国产替代重新做一遍所有训练。第三是,善于用人,能够整合社会资源,这非常关键。
俞敏洪:太正确了,你觉得自己作为CEO,是怎样的个性?
刘庆峰:我可能天性比较乐观。很多人问我,你有没有什么特别难的事情?但我其实从创业到现在,好像没见到过特别难的事情,基本上每次美国一施压,我马上就能想到新的机会,应该从哪里突破……总之,干呗,不会出现很大的焦虑。
俞敏洪:这方面我们俩有点相似,遇到难的事情,会发现这可能是个机会。
刘庆峰:王老师跟我提醒过两件事,他说庆峰,你第一不要过度乐观,第二你在用人的时候不要心太软,太讲人情。
俞敏洪:这点跟我也差不多,没有乔布斯那种杀伐决断。
刘庆峰:是。
俞敏洪:全世界范围内的科技公司老总,你最佩服谁?
刘庆峰:其实我还是很喜欢乔布斯的,我也非常喜欢马斯克、任正非,他们都是真正的大企业家,赚了钱以后,不是去做别人都能做的商业模式创新,不是从企业家变成商人,而是真的去做改变人类未来或者最重要的硬科技,我们需要一些这样的企业家。
俞敏洪:现在科大讯飞长久的愿望是不是也是做改变人类未来、让人类社会更加美好的新科技?
刘庆峰:对,而且我们觉得这种新科技不是泛泛的,因为我们看到了很多场景,比如赋能教育、赋能医疗。比如通过学习机,我们可以解决孩子们学业上的因材施教,让孩子用同样的时间能学到更好的学习成绩,而且能对自己的学习更有自信心,比如学数学,过去每一章节需要练习几十道题,现在10道题以内就可以精准找到你的薄弱项,它会自动分析,给出知识图谱,告诉你每个知识点的相互关系是什么,应该从哪个地方开始学。这完全是用大模型变成了你的一个学习助手、随时随地的辅导老师。
有了这个以后,我们希望从小培养孩子的科学精神,科学精神要从娃娃抓起,要从小学一年级开始,但我们看到的真实情况是什么?都说提出问题是科学成功的一半,孩子们总会天马行空脑洞大开,但很多孩子提问以后,老师们能回答多少呢?23%。孩子问五个问题,老师只能回答一个,所以很多孩子不愿意问了。后来我们用星火大模型学习了中国科协的科普资料以及很多学校课后的素质拓展教育的内容,还学了《科普中国》《十万个为什么》等等很多出版社的内容,现在它的回答率能达到95%。
俞敏洪:学生的任何问题,都能从大模型中得到基本的解答?而且回答的难度也是根据学生的不同水平给出来的?
刘庆峰:是的。另外还能看到一个指标,孩子们的举手率从16%变成了73%,所以科学要从娃娃抓起。再说另一个场景,青少年抑郁症,现在很多家庭焦虑都会焦虑,一旦孩子有了抑郁症,他就不跟老师说话,也不跟家长说话,你很难让他敞开心扉,而且就算遇到好的心理医生(治疗过程)又很花时间,以至于北京安定医院的号都挂到一年以后了,怎么办呢?教育部、国家卫健委要求对中小学生做抑郁症的全量排查,怎么排查?只有用人工智能。我们用人工智能可爱亲切的形象单独跟孩子对话、聊天,就能够判断孩子是否有抑郁症,判断你是几级。现在这个技术已经跟安定医院合作了,马上就会申请医疗许可证了,效果比基层医生都还要好。
再进一步是什么?能让机器跟孩子对话,引导他。很多孩子的焦虑来源是什么?人际关系敏感、亲子关系焦虑、身体原因、校园霸凌、考前焦虑等等,很多孩子跳楼就是因为考前焦虑。我们一旦做出了相应的判定,就能给他分享很多故事,让他不用担心,他马上就会放松,现在已经能看到,很多学校的发展性评价已经能从10%几提高到70%、80%了,很多孩子都被关注到了,考前焦虑也从34%降到17%。
所以我们的梦想不仅仅是希望核心技术能做到业界第一,这是一个对抗性的、纯技术的梦想,我觉得我们还是希望能通过人工智能,给社会带来更多更有温度的贡献。
俞敏洪:今天时间差不多了,你再给大家说几句。
刘庆峰:当今世界,全球政治、科技、经济都面临了很大的不确定性,很多人都有蛮大的焦虑感,认知大模型所带来的通用人工智能确实又有了全新的机遇。有人迷茫、有人焦虑、有人兴奋,我觉得在这个时间点上,大家更重要是要想清楚,价值创造的根本到底是什么?我们要的是什么?在任何时候,无论做产业还是做自己的事,都得要返璞归真,回到最真实的本源,源于初心,才能走得更远,才能更愉快。我们也希望将来有更多中国的科技跟文化、技术跟内容的结合,虽然我们都面对着很大的压力,但我仍然希望我们都能够轻松乐观、能够不断找到环境中创造出新的机会,也希望直播间所有的朋友们越来越好!
俞敏洪:谢谢庆峰。今天我跟科大讯飞创始人刘庆峰老师做了两个多小时的对谈,让我也收益良多,我们主要聊了几个方面:
第一,有关个人成长。庆峰某种意义上是一个天才型的人物,他的数理逻辑能力天生就比较好,从小一直是学霸,但除了智商以外,他的成长和成功也跟家庭的培养有关系。尽管他的父母不是高级知识分子,但对孩子在榜样和个性上都产生了非常大的影响,比如庆峰从母亲身上学到了坚韧和专注力,从父亲身上学到了气度、大开大合。所以父母对孩子的影响是非常重要的,好的父母是孩子成功的一大半。
第二,从庆峰的成长历程可以看到,从小尊重孩子的天赋来培养他,比强制性地把孩子塞到统一的模式中去培养要更加重要。孩子都有各自不同的天赋,比如庆峰的倾向是数理能力,我的倾向就是形象思维能力,所以庆峰从小偏理工科,我从小就偏文科,我们两个都往各自的方向发展,因为父母没有干预和干涉,当然,我父母也没有能力干预和干涉,所以到最后都是各得其所。有的孩子有体育才能,有的孩子有艺术才能,我们要尊重孩子的才能,在发现孩子在某个方面有特长和天赋的时候,要加以培养。
第三,当孩子大了以后,要鼓励孩子大胆去做自己的事情。庆峰当科大讯飞CEO的时候才26岁,我从北大出来的时候28岁,做新东方的时候31岁,都算比较年轻。在负担得起失败的前提下,多鼓励孩子们在大学毕业以后,甚至在大学的时候就出去闯荡,在可承担损失的前提之下,这种经历其实和孩子一生的成功有一定关系,毕竟能力是在训练中成长起来的。为什么在抗日战争、解放战争期间中国出了那么多将军,大将、元帅、中将、少将,如果没有战争,是不可能有这么多的。所以,在战斗中培养战斗能力,在管理中培养管理能力,在领导中培养领导能力,这一点适用于我们每个人。很多人一辈子唯唯诺诺、缩手缩脚,到最后回头一看,觉得自己这一辈子活得不合算,但挡住我们的这堵墙有时候并不是外在因素,而是我们自己,自己就是自己最大的墙。所以像科大讯飞能不断地科研、突破、发展,不断遇到困难也能突破,我觉得就是勇敢精神、冒险精神和探索精神,而这种精神发自于人的内心,而不来自于任何外部的鼓励,因为任何外部的鼓励都是暂时的,是不可持续的,但自己内心产生的热情可以一直燃烧。所以,从这点来说,我们毫无疑问应该给我们自己也包括我们的孩子以这样一种鼓励。
另外,我们可以看到,中国科技公司的发展是不容易的。中国从改革开放到现在,在商业化和市场经济大潮中,不少公司从只是建立商业模式赚钱,慢慢走向基础研究,走向创新源头建设,这是有目共睹的。比如科大讯飞,在语音合成、语音识别,以及现在的人工智能大数据模型发展中,可以说是在不断推动着中国这个领域的发展,甚至在某些领域已经超越了世界水平。大家知道,近几年来,因为方方面面的原因,中国科技企业非常不容易,但我们的自主创新研发能力一直在不断提升。
对于一个企业来说,如果不是有国家在背后大量给资金的企业,想要靠自己的资金、靠市场的活力来生存,其实在中国是非常难的,在这个过程中,要保持企业的发展,保持研发出老百姓喜欢的产品,同时还要保持自己的科研能力,因为如果你不保持科研能力,过了几年,也许你卖了一些产品,回头一看,你已经落后很多年了。所以,以科技背景和研究为核心的企业以及刘庆峰这样的CEO对于中国来说是尤其宝贵和重要的,因为他们能够把研发、把商业化、把祖国发展的未来跟老百姓的需求紧密结合在一起。当然,这样的科研公司,有的会探索失败,有的会探索成功,但不管是失败还是成功,只要是以科研为核心来研发产品的企业都值得赞扬。
我觉得中国就不应该以成败论英雄,尽管科大讯飞现在是成功的,但他们也遇到过各种各样的危机,我相信这时候企业家精神是尤其重要的。除了庆峰提到的科研能力以外,作为一个企业家,勇气和胆略也极其重要,比如他提到的自己最欣赏的企业家,像乔布斯、马斯克、任正非,都是有着这种勇气和胆略的人。同时,还需要有对于未来科技发展的战略洞察力,这不仅仅是一个模仿能力,当然模仿本身并不坏,要是模仿好了,说明你也在进步,中国改革开放、中国的基础建设能力都是从模仿到超越的。同时,作为一个企业家型的科学家,他的用人能力、整合社会资源的能力以及自己带领团队时不畏艰险的精神以及挺立在风雨之中毫不动摇的能力,都是一个企业发展最需要的管理者的能力。
我是一个科技盲,只会用科技产品,但我不会研发科技产品,也不能做任何贡献,但我希望能通过我和庆峰这样的交往和交流,让我不至于在科技产品应用方面太落后,我也希望能从他们身上感受到一种情怀和精神,在我自己做事情的时候,我也希望把这种精神注入到我自己的工作中去。同时,我也非常愿意推广、宣传我们自主研发生产的对于老百姓的生活和幸福能起到推动和促进作用的优秀产品,也感谢庆峰为中国的老百姓做了不少现在可以不断应用的优质产品,也希望我们的产品能做得越来越好。
刘庆峰:谢谢俞老师,我觉得今天不仅很开心,有些点上还挺感动的。我也给大家透露,俞老师的创业史也是我们的榜样。6月9号是科大讯飞的周年庆,2012年6月9号晚上,我们创业团队喝完酒以后,一起去看了《中国合伙人》。在这个过程中,怎么跟核心团队打交道,怎么样包容团队各种各样可能的不足,同时又发挥他的特长,面对各种困难如何调整心态,始终乐观、积极、向善、向上,我觉得我从俞老师这里学到了很多。所以,今天非常开心,能到这里跟你对谈。
俞敏洪:大家不要被庆峰误导,《中国合伙人》中间陈冬青的形象,黄晓明演的,其实跟我的个性有着很大的差别。那个形象很容易让人感觉,一个人只要忍辱负重,就能创业成功,忍辱负重当然是一个很重要的条件,因为创业过程中总会有各种各样需要你忍辱负重的情况出现,但更重要的是眼光和决断力。
刘庆峰:我觉得还有一条,在该忍辱负重的时候忍辱负重,眼光、决断力和担当,还有一条,我从您身上能看到的诙谐乐观、回归人性,你说如果都不喝酒还有什么意思。其实该真性情流露的时候,还得做一个真实的人,这点非常重要。
俞敏洪:我觉得这点你做得还是不错,人生海海,如果你还装着、端着,就会很麻烦,如果自己活得都不痛快,还那么艰苦创业干什么?你想想,如果打仗的时候,在前线打了一次仗回来,是不是跟老战友们一起喝杯酒、聊聊天、开心开心是最好的事情?由于时间关系,今天直播就到此为止了,我们也得回去聊聊天、开心开心了,谢谢大家今晚的陪伴!
刘庆峰:谢谢俞老师,谢谢大家。