对话腾讯蒋杰:全链路自研通用大模型有何挑战
9月7日,腾讯正式宣布旗下的通用大模型“混元大模型”对外开放,作为全链路自研的通用大语言模型,混元具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。
在大会后的采访中,腾讯集团副总裁蒋杰,介绍了它的研发过程、方向选择思路以及自研模型的技术挑战。
蒋杰表示,腾讯混元大模型拥有自主研发的路径规划,掌握了从算法到框架再到平台的全链路自研技术。
在其它公司着急推出各种模型的时候,腾讯的通用大模型已经在内部大量业务场景中进行了长期测试,产品成熟之后才对外输出。
这种先服务于腾讯本身的业务,再通过腾讯云对外开放、服务客户和外部合作方的模式,也被腾讯视为自家通用大模型的重要优势。
腾讯方面表示,混元大模型有良好的上下文理解和长文记忆能力,能够流畅完成各专业领域的对轮问答;支持文学创作、文本摘要、角色扮演;能够准确理解用户意图,基于已有数据或信息进行推理、分析;同时有效解决事实性、时效性问题,提升内容生成效果。
蒋杰认为,大语言模型最有商业价值的部分是提效,这也是大语言模型存在的使命。
未来混元大模型将重点做好提效的基础能力,“希望它不要胡言乱语,更安全、更可靠、有更好的逻辑思维能力,可以回答更复杂的题目”。
对于大模型在训练和存储过程中涉及到的数据问题,蒋杰表示,无论有没有大模型,腾讯都严格遵循法律要求,“我们可以向大家保证,我们做的小模型、大模型还是大语言模型,都绝不会使用个人隐私数据。”
公开数据显示,截止到今年7月底国内已经有130个大模型产品亮相或宣布,其中既有一些大模型,也有小模型,有通用模型,也有专业领域的模型。
但腾讯的通用大模型虽然已经在内部运营迭代多个版本,但直到9月份才正式对外开放,这也被很多人认为是一次姗姗来迟的亮相,多少显得有些“不着急”。
其实,混元大模型的推出并非一蹴而就,从2021年开始,腾讯就已经在研发相关的技术能力。也是从那年起,腾讯先后推出了千亿和万亿参数的NLP稀疏大模型。
他向界面新闻介绍称,混元大模型是从零开始训练,整个体系包含了平台架构、模型和算法等能力,同时将腾讯自身的业务需求和大模型进行深度结合。
马化腾在股东大会上曾明确表示,腾讯在埋头研发自己的大模型,但是并不急于早早做完,把半成品拿出来展示。
在最近几个月内,混元大模型始终处于边研发边应用的状态,腾讯内部一直在用大量内部业务场景对它进行磨炼,尤其是腾讯文档、腾讯会议和腾讯广告等非常复杂的应用场景。
在腾讯看来,对于基础模型而言,技术和机会并不仅局限于聊天机器人这样的问答式场景,大模型的长期价值将通过应用来体现,所以更广泛的应用场景是决胜的关键因素。
虽然测试大语言模型的途径有很多,部分厂商也采用了Chat的方式进行测试,但蒋杰认为,腾讯在过去二十年间积累了大量的C端应用场景以及海量用户,也包含了很多B端应用场景验证体系,混元大模型在腾讯内部各业务的场景中也能得到良好的测试。
此前在6月份,腾讯曾推出MaaS(Model-as-a-Service)服务,向外部客户提供行业大模型服务。本次混元大模型对外开放之后,也将作为MaaS服务的底座,客户可以基于混元大模型,也可以基于开源模型,来搭建自己专属的行业大模型。
现在市场上有很多开源大模型,部分厂商选择在它们基础上叠加精调,然后推出自己的大模型产品。
但蒋杰认为,如果不从头做自研,就无法对这项技术完全掌握。腾讯选择自研的首要原因就是要解决根本的技术能力突破,建立自己的技术栈体系,模型的后续研发迭代速度会更快,也更容易与未来腾讯其他产品业务相融合。
其次,腾讯旗下拥有很多海量高并发的业务,而很多开源模型的架构并不能支撑这种体量。所以腾讯需要走出一条基于自主体系研发的道路,才能应对海量高并发业务的冲击。
与此同时,全链路自研也让腾讯的大模型拥有了差异化的优势。
比如,“幻觉”是每个大语言模型都会面临的重要问题,当前Transformer架构的大模型无论做到什么阶段,都会出现不同程度的幻觉,这是做大语言模型的技术人员终身的挑战。
行业内很多大模型用的是知识图谱和搜索外挂的方式,去提升模型的检索能力,腾讯也部分采用了这些方式,“但比例不会很高,我们要在整个大模型的预训练阶段就控制这个问题”,蒋杰表示。
在腾讯内部看来,虽然搜索增强能丰富大模型的答案,但它并不是大模型的底层能力。在方向选择上,腾讯更倾向于通过底层能力的提升来增强大模型的水平,这也是腾讯选择自研“探真”技术来解决幻觉的原因。
蒋杰表示,虽然市面上并不缺乏大模型产品,很多公司的技术路线也都类似,但这是一个拼细节的过程。
也许未来对头部厂商大模型进行评分,大家的差距仅在一两分之间,但投入资源的不同、专注细节的区别,都会凸显不同模型之间的差异性。
蒋杰认为,大模型还远没有触碰到技术的天花板,不是靠几个技术单点的突破就能让大模型呈现出最终形态,这是一个综合实力的比拼过程。它包括了技术突破的能力、语料的完整度、数据标注的能力、纠错能力和评测能力的突破等。
而腾讯“有使用场景的资源,有数据方面的优势,有云计算基础设施方面的加持,有打造人工智能应用,为既有业务提供辅助方面的长期实践。”用腾讯总裁刘炽平的话说,这也是腾讯持续投入大模型研发并参与市场竞争的底气。
评论一下
你的邮箱不会被公开