自象限原创,作者:程心,编辑:罗辑,题图来自:《阿丽塔:战斗天使》
划重点:
如果将开发大模型比做是“造房子”,那AIInfra就是“工具箱”,而中国缺少的正是工具和原材料制造工厂。
根据国外市场的情况,可以将整个AIInfra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。
“数据准备”是中国AIInfra第一个机遇。围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,而我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争。
在AI大模型的训练过程中,为训练和推理提供工具和调度平台也正在成为一个新的市场“模型中台”,但从目前国内的情况来看,“模型中台”确实是创业大佬们的游戏。
ChatGPT火爆之后,科技圈有不少人想谱写AI2.0的中国故事。
据“自象限”不完全统计,短短一个月,国内有名有姓的大佬下场AI创业已经不下10位。但当AIInfra赫然出现在贾扬清的创业字典里时,一位前百度NLP高级工程师一边感叹贾扬清创业眼光的毒辣,一边对“自象限”说了四个字:这事能成。
这位工程师所说的“这事”,指的也并不是贾扬清创业的成败,而是终于有人看到了中国AIInfra的底子薄弱,想要上手来补一补了,那么,国内做AGI——“这事能成”。
不止贾扬清,最早掀起“大佬创业潮”的王慧文,在披露出为数不多的消息中,Infra出现了两次。在三个联创中,“一个Infra(基础设施)背景的联创”占据了重要的名额,与此同时,光年之外的第一个动作,便是与国产AI框架一流科技(Oneflow)达成并购意向。
被贾扬清和王慧文双双押注“AIInfra”到底是什么?在整个大模型开发中占据哪些关键节点?
顺着大佬们的思路,“自象限”将AIInfra的链条进行了盘点和国内外公司对比以反观中国现状。简单来说,AIInfra是一套十分复杂又基础的体系,包括构建、部署和维护人工智能系统所需的硬件、软件和服务的组合,它包括使AI算法能够处理大量数据、从数据中学习并生成有意义的见解或执行复杂任务的基本组件。
即如果将开发大模型比做是“造房子”,那AIInfra就是“工具箱”,而中国正是缺少工具和原材料制造工厂。
在这样的背景下,未来3~5年,相比于受限大模型能力变化的应用层面,AIInfra反而会更加稳定。毕竟大模型公司搞军备赛,那卖武器的公司增长一定十分可观。
但问题在于,如今中国的AI产业链在这一块还处于相当空白的状态。国内基于ML进行数据标注的公司星尘数据创始人就曾提出过这个问题,中国有没有AIInfra公司?答案是:没有。
他认为“国内从业人员太过于专注在方法论上,而方法论是公开的,但实际不公开的内容才有更多Knowhow和壁垒性”。
所以,如果说应用生态是显性创业机会,那么AIInfra便是隐形的蓝海。事实上,当AI进入2.0时代,AIInfra在整个AI产业链的价值也正在发生变化。
我们根据国外市场的情况,可以将整个AIInfra大致分为数据准备、模型构建、模型产品三个层面,在这三个层面中的每一个节点,都是创业公司的机会点。
图片为自象限原创,转载请注明出处
其中数据准备又可以具体拆解为数据质量、数据标注、数据合成和应用商城与工程;模型构建又包括机器学习平台、版本控制和实验跟踪、模型风险管理;模型产品则包括模型部署和服务、模型监控、资源优化等。
这些细分场景都在成为AI产业链的新“聚宝盆”。本文重点结合海外头部公司对AI基础层的研究,梳理了在大模型训练中比较重要,亦或是国内目前比较薄弱的方向,希望给国内创业者予以启发。
一、数据新产业链中的“聚宝盆”
“数据准备”是中国AIInfra第一个机遇。
对比中外生成式AI的发展会发现,中文数据的缺乏一直中文AI大模型的是最大短板。
有公开数据表示,截至年,在全球排名前万的网站中,英文内容占比60.4%,中文内容占比仅1.4%。但作为AI三要素(数据、算力、算法)中最基础的部分,数据又是整个AI大模型训练的前提。没有数据,就相当于巧妇难为无米之炊。
需要明确的是,围绕着“以数据为‘能源’”,本身就是一条十分复杂而又基础的产业链,涉及到数据质量、数据标注、数据安全三个主要部分和多个环节。
未来在AI活跃的氛围下,中国一定会涌现出多个大模型,目前仅百度就有36个大模型,阿里、百度、腾讯、华为每家的大模型都不低于三个。而大模型越“热闹”,对后端数据的需求数量和质量也会更高。
但反观我国的数据相关产业链,几乎都是云大厂“一带而过”,缺乏深耕在某个细分领域的垂直竞争,我们整理了几个产业链中的关键机会,仅供抛砖引玉,期待更多创造。
1.“数据质量”新机会:曾在这里摸爬滚打的企业,或迎来“出头之日”
整体上看,数据质量的机会分为两个部分,一部分是在技术侧,机器学习和自动检测正在成为数据质量的新机会。另一部分是在市场侧,随着AI市场规模越来越大,数据质量正在从产业链末端扩展成为供应商直接服务企业。
未来,随着AI成为社会发展的底座,数据质量会成为每个企业的刚需。但国内数据质量尚未受到足够的重视,缺乏专门做数据质量的企业,它更多是以大公司附庸品的形态出现,更像是“顺手”做的事情。
但实际上,数据质量是需要市场化的,就像汽车公司没办法生产每一个零部件一样,只有让数据质量成为整个产业的底座,通过众人拾柴火焰高的方式,才能推动整个行业的发展。
在国外,数据质量是十分垂直的赛道。这类公司的核心目标,是帮助人工智能企业最大限度地减少劣质数据带来的影响,他们的产品通常包括数据可观察性平台、数据整理和偏见检测工具,以及数据标签错误的识别工具等等。
国内其实也有这类的公司,但数量稀少。这些公司有一个非常明显的特点,就是他们在数据的细分赛道里摸爬滚打了很久,但因为这个赛道过于垂直,因此无论是资本还是市场都对他们
转载请注明:http://www.0431gb208.com/sjszlfa/7603.html