大模型落地需要“记忆力”,这家公司想为向量数据库正名 | 把脉大模型

现实生活中若两人进行对话,大致需要三步流程:一方首先抛出话题作引子;另一方会先调动记忆判断自己是否了解这个话题,然后再分析给出应该做出何种回答。如此循环往复直到互动结束,而此次对话又会作为一种新的“记忆”被双方吸收。

为让计算机完成这样的互动过程,并持续在一对一或一对多的情况下变成日常,AI科学家提出了CVP结构,即“ChatGPT(以ChatGPT为代表的大模型)+Vector Database(向量数据库)+Prompt(提示词)”,分别承担计算机分析、记忆、引子的功能。

向量数据库作为计算机记忆体一般的存在,正吸引着大批投资人和创业者的关注。向量数据库创业公司Zilliz的创始人兼CEO谢超告诉界面新闻,大模型落地,从数据的角度要面对的重要现实就是计算同存储的分离,即大模型属于厂商,而数据属于用户。“国内几乎所有主流的大模型厂商上半年上门找我们聊合作,都迫切想知道一件事——大模型如何跟向量数据库配套使用,或者说计算和存储如何结合并实现低成本的重复使用。”

向量数据库是一种专门处理(主要包括存储和检索)非结构化数据的新型数据库。传统的数据库主要处理由行、列二维表格方式存储的结构化数据,这类数据具有标准化的格式,较为容易做量化分析。而非结构化数据是指那些高维度、难以量化的抽象数据,通常需要特定的数据结构来组织,且不易分析。现实生活中,非结构化数据以各种形式出现,包括文本、图像、音视频以及未来多模态呈现更为复杂多元的表情、体态等数据。

结构化数据,一本书的信息按照ISBN码、年份、署名、作者就可转化为二维表格

非结构化数据,一个完整句子需要结合上下文语境,按语义分割将每个单词转化为三维乃至更高维的向量矩阵

以OpenAI背后的GPT模型预训练所用的数据为例,GPT-3.5的“知识库”共包含3000亿单词的数据,汇聚了来自开源语料库、维基百科、各类图书与新闻报道、Reddit与Twitter平台文章等大量互联网文本数据。GPT-4在此基础上体量更大,且为了支持多模态专门收集各类图像、视频素材,这其中非结构化数据应占有极大比重。同时,随着大模型朝着多模态趋势的迭代,非结构数据的数量势必将呈指数级增长。

根据IDC、Gartner等市场调研机构的估算,真实世界中绝大多数数据(约80%)都为非结构化数据,只有少量(约20%)为结构化数据。然而正如冰山效应所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉没在水面之下”,非结构化数据结构复杂且难处理,反而导致有效利用率远低于结构化数据。因此,打造面向非结构化数据的向量数据库也变成了一场从0到1的拓荒。

Zilliz成立于2017年,总部位于硅谷,是最早一批探索向量数据库的先行者。以大模型诞生为分水岭,公司的成长历程可分为“前大模型时期”和“后大模型时期”。

在前大模型时期,向量数据库的技术理念并未有统一的定义,市场上也未有同类产品模式可作参照。Zilliz起步只能在无人区中开拓新赛道,客户、投资、应用场景都是未知数。“我们做向量数据库的前几年几乎没有任何收入,全靠融资生存,但那时候说服投资人是一件很困难的事情。招聘工程师、找客户、拉投资,不确定性几乎来自方方面面,这也成为Zilliz的常态。”

2019年,Zilliz开源了全球首个向量数据库产品Milvus,目前在GitHub上获得了超过2.1万颗Star,是开源圈内的明星项目,也给公司带来了第一批用户。同时,团队发表的向量数据库相关的两篇论文,也在2021和2022连续两年入选了数据库领域国际顶级会议SIGMOD和VLDB。在创始人眼中,Zilliz前几年所做的工作都在一步步将向量数据库推向主流视野的关注范围内。

后大模型时期,ChatGPT的爆发则彻底改变了向量数据库的发展速度。2023年3月,在英伟达全球开发者大会上,黄仁勋力挺向量数据库对构建专有大型语言模型的重要价值,同时点名Milvus。紧接着,Milvus和Zilliz Cloud又成为了OpenAI官方首批plugin合作的向量数据库。

资本和竞争对手随即迅速涌入这一赛道。其实,早在2022年8月,Zilliz就完成了累计超过 1.03亿美元的B轮融资,由沙特阿美Aramco Ventures旗下基金领投,现有股东淡马锡、高瓴创投、五源资本和云启资本跟投,估值达6亿美元。另外一家OpenAI官方合作的向量数据库公司Pinecone最新宣布获得a16z领投的1亿美元,估值达7.5亿美元。今年4月,有4家向量数据库创业公司宣布当月获得融资。大模型厂商也纷纷开始着手布局自家的向量数据库,腾讯、京东均有对外公开的向量数据库产品。

参考美国2022年上市的数据库公司Snowflake以及还未上市的独角兽公司Databricks,融资规模都已达到数十亿美元。向量数据库如今已经走完了为赛道“正名”的第一步,目前处在产业化的开端。而数据库行业先天具有高资本投入、高技术门槛的特点,一款数据库通常需要经过成百上千的工程师研发迭代,技术产品的工程积累预计将成为该赛道竞争的决定性条件。

前大模型时期通过搞科研、发论文、做开源为向量数据库正名后,处于后大模型时期的Zilliz将2023年视为“商业化元年”。

在开源产品Milvus之外,公司将云服务产品Zilliz Cloud作为商业化的关键。Zilliz Cloud可以帮助企业用户构建十亿级向量数据库,部署和扩展向量搜索服务,收费模式分为存储收费(按数据规模与存储时间)与计算收费(按机器数与运行的小时数)。这也是该公司进一步稳固市场的核心所在。

作者: 李彪LB 0 view

评论一下

你的邮箱不会被公开