近日,美国知名风险投资机构发布了(AI & Data)生态系统全景图(《机器学习、人工智能和数据全景图》)。
此外,还梳理了当前MAD生态中值得思考的24个关键问题。 可以说,它对生成式AI生态系统进行了全面的灵魂拷问和分析。 内容非常详细,令人兴奋。 欣赏吧~
目录
来源 | ,数据视图(ID:)
作者 | 马特·图尔克
编译| 数数宇宙
生态系统全景
机器学习、人工智能和数据全景
578家新入生态企业全景
近日,美国知名风险投资机构发布了(AI & Data)生态系统全景图(《机器学习、人工智能和数据全景图》)。
全景图显示,在机器学习、人工智能和数据产业生态中,2024年共有2011家企业上榜,这一数字较去年的1416家有所增加。 其中,新进入企业578家。
指出当前数据已经高度数字化,可以使用现代工具快速、廉价地存储、处理和分析,最重要的是,它可以输入到性能更高的 ML/AI 模型中,这些模型可以理解、识别、分析和做出预测基于它,甚至可以生成文本、代码、图像、声音和视频。
请旋转手机横向查看图片!
连续两波大规模创业
打造机器学习、人工智能与数据全景
分析文章指出,之所以有如此多的公司涌入机器学习、人工智能和数据领域,是因为连续两波大规模的公司创建和融资浪潮。
第一波是持续约 10 年的数据基础设施周期,从大数据开始,到现代数据堆栈结束。
期待已久的该领域整合尚未发生,大多数公司仍然存在。
第二次浪潮是 ML/AI 周期,它始于 GenAI 的出现。
我们正处于这个周期的早期阶段,大多数公司都非常年轻,因此全景包括许多年轻的初创公司(相当多的公司仍处于种子阶段)。
两次大浪潮+有限的整合=大量公司。
2024年值得思考的24个问题
他表示,人工智能领域发展速度日新月异,覆盖面空前,带来了24个值得关注和反思的问题。
结构化数据与非结构化数据
这一部分既是一个主题,也是在对话中经常提到的一个主题,以帮助解释当前的趋势。
简而言之,并非所有数据都是相同的。 从广义上讲,数据有两大类视频包装技术难学吗,围绕每个系列,出现了一组工具和用例。
结构化数据管道:可以放入行和列中的数据。
出于分析目的,数据从事务数据库和 SaaS 工具中提取,存储在云数据仓库中,例如“描述性分析”)。
此过程通常由下面讨论的现代数据堆栈启用,其中分析是核心用例。
此外,结构化数据还可以与“传统”ML/AI 模型一起使用来预测未来(预测分析)——例如,哪些客户最有可能流失。
非结构化数据管道:通常不适合行和列的数据世界,例如文本、图像、音频和视频。
非结构化数据主要在 GenAI 模型(LLM 等)中进行训练和使用(推理)。
这两类数据(以及相关工具和公司)目前的命运和关注度截然不同。 非结构化数据(ML/AI)炙手可热; 结构化数据(现代数据堆栈等)则不然。
现代数据堆栈已经死了吗?
大约 2019-2021 年,软件世界中没有什么比现代数据堆栈 (MDS) 更令人兴奋的了。 与“大数据”一样,它是少数几个从数据工程师到更广泛的受众(高管、记者、银行家)的基础设施概念之一。
现代数据堆栈基本上涵盖了上面提到的那种结构化数据管道。 它围绕着快速增长的云数据仓库领域,相关供应商位于其上游(例如 DBT)、之上(DBT)和下游(Mode)。
随着 MDS 成为有史以来最大的软件 IPO,人们对 MDS 的兴趣激增,伴随着 ZIRP(零利率政策)驱动的公司创建和风险投资的狂热。
一两年之内,整个类别变得人满为患 - 数据目录、数据可观察性、ETL、反向 ETL 等等。 现代数据堆栈不仅是对实际问题的真正解决方案,更是一种营销理念,是数据价值链上一系列初创公司形成的事实上的联盟。
快进到今天,情况已大不相同。 2023年MDS预演了“高压”,而这种压力在2024年只会继续加剧。
MDS 面临两个关键问题:
构建现代数据堆栈需要将多个独立供应商的最佳解决方案拼凑在一起。 结果是,从金钱、时间和资源的角度来看,这是一项昂贵的任务。 在后零利率政策 (ZIRP) 预算削减时代,财长办公室不会看好这一点。
MDS 不再是街区里的酷孩子。 GenAI 吸引了高管、风险投资家和媒体的所有注意力——它需要上面提到的那种非结构化数据管道。
数据基础设施整合及规模扩张
鉴于上述情况,2024 年数据基础设施和分析的下一步是什么?
它可能看起来像这样:
现代数据堆栈及其周围的许多初创公司将积极地将自己重新定位为“人工智能基础设施初创公司”,并试图在现代人工智能堆栈中找到一席之地。
这在某些情况下有效,但在大多数情况下,从结构化数据转向非结构化数据可能需要根本性的产品演变。
数据基础设施行业最终将会出现一些整合。
到目前为止,并购活动相当有限,但 2023 年确实会出现一些收购,包括侵入性收购和中型收购,包括(被收购)、Manta(被 IBM 收购)、Mode(被收购)等。 初创公司失败——随着风险投资资金枯竭,事情可能会变得艰难。
许多初创公司都削减了成本,但他们的现金流迟早会结束。 不要指望看到华而不实的头条新闻,不幸的是这就是将会发生的事情。
该领域的大型公司,无论是规模扩大公司还是上市公司,都将加倍实施其平台战略,并努力覆盖更多功能。 其中一些将通过收购(从而整合)实现,但很多也将通过内部开发实现。
两大数据巨头和
说到该领域的巨头,让我们来看看两个关键数据基础设施参与者之间的战斗。
(从历史上看,结构化数据管道领域)仍然是一家令人难以置信的公司,也是估值最高的上市科技股之一(截至发稿时,EV/NTM 收入为 14.8 倍)。
然而,与许多软件行业一样,该公司的增长已显着放缓——截至撰写本文时,该公司 2024 财年的产品收入同比增长 38%,总计 26.7 亿美元,预计 NTM 收入增长 22%) 。
也许最重要的是,它给人的印象是一家在产品方面面临压力的公司——它在拥抱人工智能方面进展缓慢,并且收购能力相对较弱。 最近突然出现的首席执行官更替是另一个有趣的数据点。
(历史上来自非结构化数据管道和机器学习领域)正在全面经历强劲的势头,报告(因为它仍然是一家私营公司)24 财年收入为 16 亿美元,增长率超过 50%。
重要的是,它通过收购(最著名的是 13 亿美元)和自主产品开发,正在成为生成人工智能领域的重要参与者——首先作为非结构化数据的重要存储库,为法学硕士提供数据,同时也是模型的创建者,从 Dolly 到 DBRX,这是该公司在撰写本文时刚刚宣布的一种新的生成人工智能模型。
在竞争中,新的重大进化正在推出。 它于 2023 年 5 月推出,是一个端到端、基于云的数据和分析 SaaS 平台。 它集成了大量的微软产品,包括(Open Lake )、Data,基本涵盖了从数据集成、工程到数据科学的所有数据和分析工作流程。
传统上,当大公司发布产品时,公告和实际产品之间存在一定的差距,但结合微软在生成人工智能领域的大力推动,这可能会成为一个可怕的威胁(作为故事的另一部分)点,主要位于 Azure 之上)。
2024 年生成式 AI 能否改变数据分析?
在现代数据堆栈和结构化数据管道的所有部分中,商业智能是重塑最成熟的类别。
我们在 MAD 2019 中强调了商业智能行业如何几乎完全集成,并在 MAD 2021 中讨论了度量存储的出现。
商业智能/分析的转变速度比我们预期的要慢。
该行业仍然主要由微软、谷歌等老产品主导,这些产品有时会免费捆绑在更广泛的销售合同中。 一些公司进行了整合(Mode被收购,Sisu被悄悄收购)。 一些年轻的企业正在采取创新方式,无论是大型企业还是初创企业,但它们普遍处于发展的早期阶段。
除了在数据提取和转换方面发挥强大作用的潜力之外,生成式人工智能还可能在增强数据分析和民主化方面产生深远的影响。
该领域确实有很多活动。
推出“代码”(Code),后更名为“高级数据分析”(Data)。 微软在 Excel 中为财务人员推出了人工智能聊天机器人。
在云计算供应商、开源软件和众多初创公司中,许多公司正在开发或已经发布了“文本到 SQL”产品,以帮助使用自然语言在数据库中运行查询。
这一前景既令人兴奋,又具有潜在的破坏性。 数据分析的圣杯一直是其民主化。 如果自然语言可以成为笔记本、数据库和商业智能工具的界面,更多的人将能够执行分析。
然而,商业智能行业的许多人对此表示怀疑。 SQL 的精确性和对查询背后业务上下文细微差别的理解被认为是自动化的巨大障碍。
现代人工智能堆栈的兴起
到目前为止,我们讨论的大部分内容都与结构化数据管道的世界有关。
如前所述,非结构化数据基础设施的世界正在经历一个非常不同的时刻。 非结构化数据为LLM提供了源源不断的动力,对其的需求也非常旺盛。
每家正在尝试或部署生成式人工智能的公司都在重新发现一句陈词滥调:“数据就是新石油”。 每个人都想获得 LLM 的力量,但要根据自己的(企业)数据进行训练。
大大小小的公司都在抓住这个为生成人工智能提供基础设施的机会。
从Scale AI(将最初为自动驾驶汽车市场开发的标签基础设施演变为与其他公司合作的企业数据管道),到Scale AI(推出了LLM Mesh,使全球2000强公司能够在LLM供应商和模型之间无缝协作),一些人工智能扩展公司正在积极开发自己的产品,以利用市场的势头。
与此同时,新一代人工智能基础设施初创公司正在多个领域涌现,包括:
矢量数据库以生成 AI 模型可以使用的格式(矢量嵌入)存储数据。 专业厂商(、、、、、等)今年取得了丰硕的成果,但一些现有的数据库厂商()也迅速做出了反应,加入了矢量搜索功能。 关于更长的上下文窗口是否会完全消除对矢量数据库的需求一直存在争论,双方都有自己的观点。
连接和协调所有运动部件的框架(等)。
(),放置在LLM和用户之间,确保模型提供的输出符合组织规则。
帮助测试、分析和监控生成人工智能模型性能的评估者是一个难题,对公共基准的普遍不信任就证明了这一点。
路由器帮助实时引导用户在不同模型之间查询,以优化性能、成本和用户体验。
成本保护器可帮助监控使用 LLM 的成本。
端点、高效的应用程序编程接口抽象了模型等底层基础设施的复杂性。
鉴于现代数据堆栈的历史,我们拒绝使用“现代人工智能堆栈”一词。
但该声明捕捉到了许多相似之处:许多初创公司当时都是“热门公司”,与之前的 MDS 公司一样,它们倾向于建立营销联盟和产品合作伙伴关系。
新一代人工智能基础设施初创公司将面临与之前的 MDS 公司相同的挑战:这些类别中的任何一个都足以建立一家价值数十亿美元的公司吗? 大公司(主要是云提供商,还有谷歌和谷歌)最终会自己构建哪一部分?
我们处于人工智能炒作周期的哪个阶段?
过去几十年,人工智能经历了寒冬和炎热的季节。
过去10到12年是我们经历的第三次人工智能炒作周期:
这轮炒作尤其激烈,甚至感觉像是人工智能泡沫,原因有很多:技术令人印象深刻; 它非常有意义,可以吸引科技界以外的广大受众; 对于投资者来说,持有大量干粉也存在风险,这是唯一的游戏,因为几乎所有其他科技领域都表现疲软。
炒作带来了所有常见的花里胡哨的东西——“没有非理性的繁荣,什么伟大的事情都成不了”、“百花齐放”、“雄心勃勃的项目可以大量资助”,当然还有其他刺耳的声音——每个人都是人工智能一夜之间成为专家,每个初创公司都是人工智能初创公司,太多的人工智能会议/播客/时事通讯......
因此,任何炒作周期的主要问题都是不可避免的反弹。
这个市场阶段存在相当大的“怪异”和风险:这个领域的标杆公司具有非常不寻常的法律和治理结构; 存在许多未完全理解或披露的“计算股本换股”交易; 许多顶级初创公司都是由人工智能研究人员团队运营的; 许多风险投资交易都让人想起 ZIRP 时代:“抢地盘”、大轮融资以及对非常年轻的公司令人瞠目结舌的估值,如此真实。
当然,人工智能的炒作已经出现了裂痕,但我们仍然处于每周都有新东西、令人大开眼界的阶段。 沙特阿拉伯报道的 400 亿美元人工智能基金等消息似乎表明,流入该领域的资金不会很快停止。
实验与现实:2023 年是假年吗?
与上述相关 - 鉴于炒作,到目前为止有多少是真实的而不仅仅是实验性的?
2023 年是充满行动的一年:每个技术供应商都争先恐后地将 GenAI 纳入其产品中; 每一家全球 2000 强公司的董事会都要求他们的团队“攻击人工智能”,一些企业正在以创纪录的数量部署人工智能,这种速度正在发生,其中包括 和人工智能等受监管行业的公司; 当然,消费者也对GenAI应用表现出了极大的兴趣。
因此,2023 年是重大胜利的一年:实现 20 亿美元的年收入; 其增长速度使其预测 2024 年收入将达到 8.5 亿美元; 团队规模只有 40 人,没有投资收入增长到 2 亿美元; AI 的月活跃用户从 0 增长到 1000 万……等等。 我们应该持怀疑态度吗?
我们不禁担心:
无论是在个人生活还是职业生活中,许多人表示并不完全确定如何使用新一代人工智能应用程序和产品。
并不是所有的人工智能产品视频包装技术难学吗,即使是那些由最优秀的人工智能人才打造的产品,都会创造奇迹:我们是否应该将人工智能在筹集 13 亿美元后迅速关闭的决定视为承认世界不需要另一个人工智能聊天机器人,甚至是法学硕士提供商?
LLM:也许没有那么商品化?
数十亿的风险投资和企业资金正在投资于基本模型公司。 因此,在过去 18 个月里,每个人都在思考一个问题:我们是否正在见证投资于最终商品化产品的资本的惊人消耗? 或者这些 LLM 提供商是新的 AWS、Azure 和 GCP?
一个令人不安的事实是,似乎没有一个法学硕士能够建立持久的绩效优势。
截至发稿时,3 和 Pro 1.5 的性能优于 GPT-4,而 GPT-4 的性能又优于 1.0 Ultra,依此类推 - 但这种情况似乎每隔几周就会发生变化。 表现也会波动——在某些时候,会暂时“失去理智”和“变得懒惰”。
此外,开源模型(Llama 3等和DBRX等)在性能方面正在迅速追赶。 另一方面,市场上的法学硕士提供商比最初出现的要多。
几年前,人们普遍认为只能有一两个法学硕士公司,并且存在赢者通吃的动态,部分原因是全球只有少数人拥有扩大规模所需的专业知识。
事实证明,有能力的团队比最初预期的要多。 除了AI和AI之外,还有一些初创公司在做基础的AI工作——Adept、AI21、Imbue、01.AI等。当然还有像meta这样的团队。 话虽这么说,到目前为止,LLM 提供商似乎做得很好。
随着收入以惊人的速度增长,也许LLM模式确实变得商品化,LLM公司仍然面临着巨大的商机。
他们已经成为“全栈”公司,除了底层模型之外,还为多个受众(消费者、企业、开发人员)提供应用程序和工具。 也许与云提供商的类比确实很恰当。 AWS、Azure 和 GCP 通过应用程序/工具层吸引并留住客户,并通过基本没有差异的计算/存储层实现盈利。
LLM、SLM 和混合未来
尽管大型语言模型令人兴奋,但过去几个月的一个明显趋势是小型语言模型 (SLM) 的加速发展,例如 meta 的 Llama-2-13b、meta-7b 和 8x7b、meta 的 Phi-2 和 Orca -2。
虽然 LLM 变得越来越大(据报道,GPT-3 有 1750 亿个参数,GPT-4 有 1.7 万亿个参数,全世界都在等待更大的 GPT-5),但 SLM 成为许多用例的强大替代方案,因为它们操作更便宜,更容易微调,并且通常提供强大的性能。
专门模型、针对特定任务的专用模型(例如用于编码、人工智能的 Code-Llama)或行业(例如用于编码的金融模型或用于材料科学的初创公司建模等)的兴起也是另一个正在加速的趋势。
正如我们在许多企业部署中看到的那样,世界正在迅速发展为结合多种模型的混合架构。
尽管价格有所下降,但大型专有法学硕士仍然非常昂贵,并且会遇到延迟问题,因此用户/客户将越来越多地部署大型和小型、商业和开源、通用和专业的模型组合,以满足他们的特定需求和成本限制。
传统人工智能消失了吗?
随着人工智能的推出,发生了一件有趣的事情:迄今为止部署的大多数人工智能一夜之间就被贴上了“传统人工智能”的标签,而不是“生成人工智能”。
这对于许多迄今为止一直被认为是前沿工作的人工智能从业者和公司来说有点震惊,因为“传统”这个词显然意味着所有形式的人工智能都将被新的东西完全取代。 现实要复杂得多。
传统人工智能和 GenAI 最终非常互补,因为它们处理不同类型的数据和用例。
现在被称为“传统人工智能”,或者偶尔被称为“预测人工智能”或“桌面人工智能”的东西,也是现代人工智能(基于深度学习)的一部分。 然而,它通常关注结构化数据,以及推荐、流失预测、价格优化、库存管理等问题。
“传统人工智能”在过去十年中得到了广泛的应用,并已在全球数千家公司的大规模生产中部署。
相比之下,GenAI 主要对非结构化数据(文本、图像、视频等)进行操作。 它在不同类别的问题(代码生成、图像生成、搜索等)上表现良好。
在这方面,未来也是喜忧参半:公司将使用法学硕士来完成某些任务,而使用预测模型来完成其他任务。 最重要的是,他们经常将它们结合起来。 LLM 可能不擅长提供精确的预测,例如流失预测,但您可以使用一个 LLM 调用专注于提供该预测的另一个模型的输出,反之亦然。
脱壳和全栈竞争
2023年,大家都喜欢用“瘦”这个贬义词。 这种观点认为,如果你的核心能力是由别人的技术提供支持的,那么就很难建立持久的价值和差异化。
几个月前的报道称,像这样的初创公司在经历收入飞速增长后遇到了麻烦,这似乎证实了这种思维方式。
有趣的问题是,随着时间的推移,年轻的初创公司构建更多功能会发生什么? “薄”会变“厚”吗?
到 2024 年,厚包装似乎可以通过以下方式实现差异化: