问答 百科手机端

CSDN蒋涛对话百度沈抖:大模型向前,开发者编程能力向后

2023-11-01 08:00

8月31日,文心一言正式向公众开放服务。在开放首日下载App的活跃用户破100万,在当天短短的24小时内,文心一言共计回复网友超3342万个问题,表现一骑绝尘,承载其取得如此成绩的是百度智能云千帆大模型平台。

在9月5日举行的2023百度云智大会上,百度持续加码发力大模型,百度智能云千帆大模型平台2.0全面升级,在工具链、大模型、数据集、插件和提示词模板等方面均有极大提升,目前,百度智能云千帆平台的月活企业数近万家,覆盖了金融、教育、制造、能源、政务、交通等多个行业的400多个场景,并全面重构了数字政府、金融、工业、交通解决方案。

当下大模型以前所未来的速度助推技术、产业变革,我们常常感叹“大模型的时代已经到来”,但在百度集团执行副总裁、百度智能云事业群总裁沈抖的眼里,属于大模型最好的时代依然没有到来。

为什么他会如此认为?那么大模型的未来会怎样呢?在我们将迎来怎样的大模型时代呢?对此,CSDN创始人董事长、极客帮创投创始合伙人蒋涛与沈抖针对大模型的系列话题展开对谈。

大模型新体验,交互新升级

1980年以前,人们与计算机的交互方式是典型的代码式交互。在DOS操作系统诞生前,操作电脑一直是非常专业的事情。1984年,比尔·摩格理吉(Bill Moggridge)第一次提出“交互设计”的概念,越来越多公司和行业重视交互设计并加入到产品开发流程中,如今交互设计已渗透我们的工作生活的方方面面。

大模型时代,进一步升级了交互方式,产生了与过去不同的应用范式。从软件开发的角度来看,进一步降低门槛,让“人人都是开发者”成为可能,帮助我们提升生产力,带来巨大机会。

那么未来呢?沈抖认为,大模型会成为新一代的操作系统,为开发者提供诸多帮助。

蒋涛:在大模型驱动下,未来应用形态将会如何发展?会不会有AI原生应用,凭借大模型API调用能力成为所有新型应用的底座,产生新的开发、应用、生态。甚至基于大模型,大家可以通过AI来调云。届时,未来的应用可以基于大模型API驱动,进而使得云生态产生巨大变化?

沈抖:从百度内部视角来看,预计大模型将会成为新时代的操作系统,成为应用的基础底座。

以往人和人打交道、人和机器打交道时,使用语言作为沟通方式或指令,以此将系统和人串联起来。以前电脑不懂自然语言,所以需要大家生成一套形式语言,再变成程序语言,通过程序员编写程序代码以实现交互。

但是如果每个人都可以操作系统,是不是不用程序员来操作了?譬如大语言模型理解了人的自然语言,并把自然语言转化成机器可以理解的语言,那么将来编程应用开发的范式将发生根本性变化。此时开发所需要的不再是技术,而是人的创意。人对应用需求的理解十分关键,而不是依靠掌握某门编程语言或画图来控制开发流程。

由此可见,大语言模型有望成为未来应用开发的底座。大语言模型的优势在于语言理解能力,能将系统串联起来,并分解诸多动作。此时,如果插件生态能进一步繁荣,大模型就可以把插件组合起来去完成特定的任务,帮助大家进一步开发范式升级,进一步实现创意驱动,而不是只有代码来驱动。

因此我预计,大模型会让越来越多的人代码能力“退化”,但创意能力却变得更加发达。

当然,随着大模型改变了开发范式,云的形态将会发生巨变。现在的云更多是给工程师开发使用,尽管提高开发效率,但是云的本质未变。而将来,包括云在内的系列开发内容都应该被进一步封装到大模型的API里去,而不应该将之暴露出来。

云的发展为大模型的发展奠定基础。如今很多人说“公私同栈”概念,公有云、私有云是一套体系,即用户在公有云上部署,但当需要私有云时,可以用同样的方式部署,整体操作方式不会发生变化,所以相信将来有很多私有化部署的大模型能力。从长期来看的话,如果两个客户分别使用公有云和私有云,公有云的客户可能使用最先进的大模型,而私有化部署的则可能每半年更新模型,还需要额外付费。这就是公有云的典型优势。

而在应用形态上来看,如果说现在银行程序员的任务是写代码,未来可能主要工作是基于大模型重塑业务流程。目前,已有这样的发展趋势,如低代码、零代码,以往想在业务流程里实现给老板的业务看板是一件很复杂的事。但有了低代码后,通过直接拖拽实现想法和创意。类似大语言模型的接口,未来依然有很多人在大模型和机器之间做转化的工作,无论是变成SQL语句、Python代码或是人工操作,但更多的编程人员可以被释放出来,做更上层的大模型重塑业务的工作。因此未来敲代码的开发者,我估计会变少;但用自动化的方式实现一套工具的开发者,那可能会大幅变多。

大模型与开发者的“双向奔赴”

大模型在不断学习和进化,开发者亦然。

但大模型与以往的AI很大的不同点在于智能涌现。大模型的涌现能力使得它们可以创造,反哺开发自己的开发者。开发者帮助大模型提升自己,而大模型也可以帮助开发者提升开发效率。双方都在技术的发展中不断精进,实现“双向奔赴”。

蒋涛:代码生成应用,此前我看到有人针对代码生成进行训练,在评测中甚至超过GPT-4。假设大模型是类似于操作系统的底座,基于操作系统打造的垂类模型应用进行代码生成等生成式工作时,是否会做得比通用大模型还要好?

沈抖:从代码生成这方面来看,垂直行业模型的表现一定会更好。通用大模型很难替代所有的行业模型,关键原因是行业模型和通用模型之间的关系。如代码生成类的大模型,它们并不是从0开始训练的,而是在通用大模型的基础之上再次训练而来的。大模型本身投入了大量的语料和训练时间,目的是建立理解语言的能力以及逻辑的能力、推理的能力,要建设这些基础能力离不开通用大模型。

所以首先要有一个好的通用模型,在这之上再去微调,因此垂类大模型能比通用模型表现更好,这并不意外,也不惊喜。但是如果没有通用模型,直接去从0开始做一个垂类模型,我认为大概率不太可行。基于已有的通用模型进行微调,能让开发效率和生成效果都变得更好,这就好像一个不会数学的人也很难学好AI。

蒋涛:百度内部在用大模型辅助开发吗?

沈抖:百度内部在用百度智能云代码助手“Comate”来帮助开发人员,内部已使用了一段时间,生成代码的采纳率达到30~50%。目前产品开放邀测,覆盖了30多种主流编程语言。

当然,自用的产品一定要好用。我们此前也曾将Comate和Copilot进行过对比,评估的标准是看推荐采纳率如何。从内部的对比结果来看,双方的技术水准基本持平,Comate工具目前还在持续迭代过程中,还有很多企业伙伴、客户都在POC和测试的过程中,比如软通动力、润健股份这样的头部软件公司等等。

大模型生态的万物生长

伴随大模型热度的不断提升,国内大模型产业的逐步成熟,各大企业积极奔赴大模型,不断进行探索和尝试。这其中不乏中小企业、初创公司、开发者,由于资源的限制,他们会比大企业更愿意从一开始就拥抱公有云服务。并且随着模型提供方和使用方不断增加,属于大模型时代的万物生长正在不断成形。

技术可以有跃迁,实现从量变到质变的瞬间突破,但生态是慢工出细活的工程,让大模型走出实验室,走下神坛,走进万家灯火中,还有很多的事情要做。

蒋涛:千帆大模型平台作为开放平台,目前已支持如LLaMA等第三方大模型的接入,未来会进一步开放吗?是会类似Hugging face那样接入更多的数据集和开源模型,还是会继续经过选择和调优后上架呢?

沈抖:我们希望千帆大模型平台能够帮助大家降低大模型的使用门槛。无论是直接用或微调,在现阶段,我们会提供第三方的模型。千帆目前主要能力是两条路径:

第一条路径是基于“文心一言”进行发展。随着“文心一言”的快速发展,支持大家用好“文心一言”是千帆最主要的职责之一。在大模型发展早期,模型有场景适配性,在不同场景下需要不同的模型来解决问题。因此,用户也需要第三方的模型。现在国内模型数量很多很多,所以百度在支持模型的时候有筛选原则,希望使用相对比较优秀和易用的模型。

第二条路径是为客户和开发者提供一站式的模型服务。即通过千帆平台选择模型、微调模型、部署模型,然后为客户提供服务,一站式地把模型从挑选到应用的全生命周期完成,这也是千帆要比Hugging face做得更深的地方。Hugging face确实广度足够,但其本身不是云平台,需要依赖AWS或者是其他云平台去提供算力,计算资源不是它的优势。而且它不是端到端的,模型建设完以后要部署下去,此时如果规模不大的话用处就不大,规模大了推理成本又很关键。这也是为什么,文心一言自发布以来一直在持续地进化迭代,推理速度达到了原来的30多倍,推理成本也实现了大幅下降。

千帆大模型平台不只是解决选模型的问题,而是要解决把模型真正用起来的问题,包括数据、训练、调优、Prompt工程,以及应用搭建等一系列问题,还要充分考虑到成本和效率。Hugging face提供各种各样的模型,却不是一个纯粹大模型的平台,而千帆是一个聚焦大模型的平台。在未来一段时间里多模型并存的情况下,用户需要更好的社区来讨论、选择模型,而我们基于希望大家真正用好大模型为出发点,打造了千帆大模型平台。

蒋涛:千帆大模型平台目前引入了40多个模型,这些模型与千帆平台的适配、优化等工作都是百度内部提前做好的吗?

沈抖:对,模型跟底层的GPU计算框架的适配都是我们的团队去做优化。针对一些海外模型,千帆也会做中文能力增强,然后提供升级版本供大家使用。

千帆平台升级2.0后,将提供四个“最”:预置最多的大模型和数据集、有最丰富最全面的工具链、最佳算力效能、最完备的大模型安全方案。在目前千帆平台纳管的42个国内外的主流大模型中,预置了41个高质量有行业特色的数据集,预装了知识问答、客服对话、代码助手等10个精选应用范式,大幅降低企业使用、训练和推理大模型的门槛;提供一站式工具链,内置了103套高质量的Prompt模版和自动化Prompt工程能力;兼容国内外主流芯片和操作系统,提升万卡集群训练大模型效率;提供从模型、数据到日志的全链路加密,为模型厂商和用户提供可信任的执行环境。

总的来说,百度千帆可以用“料多、好用、高效、放心”八个字来形容。

蒋涛:大模型作为一个底座,还需要接入大量的能力。国外一些企业提供API,让开发者流畅开发,提供跨资源的调度。在国内是不是缺乏API接入?

沈抖:问题在于底层依然没有实现互联互通。原因的话大概率是因为各自的数据、账号体系等之间存在孤岛,相互之间没有分享。因此,即便大量的APP存在于同一个手机里面,照样没有实现互联互通。

真正的互联互通是怎样的呢?应该是数据可以互相访问,账号实现打通。因此,即便是在大语言模型下,很可能还是无法解决互联互通的问题,应用更愿意与大模型这样的中枢对话,而相互之间却不会对话。

开源是大模型的出路吗?

传统软件有闭源与开源两种模式,闭源有明确的商业路径,而开源则有着更好的生态建设。我们在探索大模型生态发展之际,开源是否是更好的出路?

针对这个话题,沈抖表示大模型与传统的开源软件是不同的。

蒋涛:传统软件想要构建良好的生态,开源是很好的办法。不久前LLaMA的开源为大模型市场带来了新的活力,国内很多大模型企业都在基于开源大模型进一步开发,开源模式在大模型领域会是长期的形态吗?

沈抖:未来模型的能力问题可能最终回归到ROI的问题。当模型能力提高到一定程度后,市面上大多数的模型可能会消失,如今海量大模型的存在是以其能力的未知性作为前提的。如果未来市场完全开放,海量问题对于模型进行公开的测试,形成优胜劣汰的发展闭环。当前,因为规模化效应,闭环迭代螺旋上升效应还没有得到很好地体现。

但在放开后,模型的优劣会更容易评判,流量可能会逐步集中,长期来看大模型一定会创造价值,但短期内大模型是成本问题。一旦找到商业模式以后、有规模效应的话,底下模型研发的分摊成本很重要,加入大模型需要万分谨慎,训练一次动辄千万,长期投入会导致很多公司撑不住。

开源也是如此,如果不能很好地承担起大模型成本,那么一切是无源之水、无根之木,终归有一天会出问题。在大模型早期一切像盲盒,这个阶段会有开源存在,让更多人参与了解大模型,甚至在上面打造应用,这对行业的教育是有利的。但长期来看,这是不可持续的。

因为大模型跟传统的开源软件不同,传统的开源软件大部分情况下,一个人参与开源,其投入是他自己的时间成本,开发者写代码升级功能,就可以很快check in,提高开源软件能力。但在大模型来看,LLaMA开源发布后,国内无论多少人用LLaMA,他们开发的内容始终无法check in回去,数据、算力、能力放不回去。

因此,开源难度很大。如今很多大模型的开源玩法与传统开源有一点相似的地方,用开源来吸引用户的注意力,用户可以在上面试用。但综合来看,大模型生态的繁荣应该以应用和原生AI应用作为支撑。

蒋涛:互联网企业巨头有算力、有研发能力、有数据、有资金,开源大模型领域有可能发生类似RedHat被IBM收购这样的情况吗?

沈抖:不排除这种可能性,开源肯定是会长期存在。大模型热度高,国内从大型企业、中小企业、初创企业都愿意为之进行投入。

大模型很贵,但对于大企业来讲并不是无法克服的问题。一些企业自身的应用场景很多,在这阶段自研大模型的私有化部署需求存在,不论效果的好坏,至少不用依赖外部。现在的大模型可以做到60分来解决一大部分问题,难点在于是否能做到90分、95分。

随着大模型下一步的发展,对大语言模型感兴趣的人会跨很多行业,从人工智能、计算机到心理学等等,这是非常受关注的领域。我认为开源不会成为非常完整闭环的商业模式,大概率不会是主流,但不妨碍开源会长期存在。

从上面的对话中我们看到大模型对用户体验的升级、开发者效率提升以及生态建设、未来演进趋势,为帮助我们打造更好的大模型时代,百度智能云千帆大模型平台不断迭代升级,作为全球首个企业级一站式大模型平台,为企业提供大模型开发全流程工具链和整套环境,不仅提供全套文心大模型服务,还支持各类第三方大模型,成为大模型生产和分发的集散地。目前,百度智能云千帆平台的月活企业数近万家,覆盖了金融、教育、制造、能源、政务、交通等多个行业的400多个场景。正如沈抖在云智大会演讲时所说,任何新技术的真正落地,都需要相应的方法论和工具的支撑,百度智能云将不断沉淀经验、积累工具,升级千帆平台,让千帆更好用、更贴心!千帆之上,承载着我们对大模型更多发展期待,欢迎大家持续关注。

点击阅读原文,立即体验千帆大模型平台~

热门