ScaleAI,其估值高达290亿美元,正面临一个强劲的对手——Surge AI,一家AI数据公司。这家公司宣布其营收已突破10亿美元,相比之下,ScaleAI在同一时期的营收仅为8.7亿美元。此外,Surge AI已经实现了盈利。
路透社报道,据知情人士透露,Surge AI已招募了顾问团队,并计划实施公司成立以来的首次融资活动,预计融资金额可能达到10亿美元,融资后的公司估值有望超过150亿美元。
在首轮融资之前,Surge AI主要依赖自筹资金进行持续发展。此次融资计划将涉及新股份的发行以及旧股份的转让,其目的是为员工持股计划提供实现价值的机会。
来自麻省理工学院的华裔企业家,借助高水准的数据资源,为OpenAI与Anthropic的顶尖模型注入了强劲的动力。
Edwin Chen是Surge AI的创始人,他毕业于享有盛誉的麻省理工学院(MIT)。在MIT的知名CSAIL实验室,他从事研究工作,主要聚焦于算法交易和理论计算等前沿领域。在创立Surge AI之前,他曾在谷歌、Facebook和Twitter等知名企业担任与机器学习及数据处理相关的工程技术岗位。
Surge AI的创始人系Edwin Chen(信息来源于20VC的视频截图)。
在成立Surge AI公司之际,Edwin Chen成功吸引了众多资深同事加盟,其中包括工程团队的核心人物Andrew Mauboussin,他曾是Twitter的机器学习工程师,并且拥有哈佛大学计算机科学专业的学位。此外,还有产品与增长部门的主管Bradley Webb,他之前担任过Facebook的数据运营负责人。
高质量数据是AI性能提升的必需品,它来自人类的智慧和创造力
算法,算力,数据是AI模型性能的三大要素。
Surge AI的创始人Edwin Chen提出,在这三个关键要素里,数据质量的重要性位居首位,紧随其后的是计算实力,而算法则排在最后。
正如Ilya Sutskever在公开演讲中所言,我们熟知的预训练范式已走向终结,这是因为计算能力在不断提升,然而,数据资源,尤其是优质数据却日渐匮乏——毕竟,我们仅拥有一个互联网。
现有的大语言模型所依赖的数据源自于人类历史积累的智慧,其中包括互联网上的信息。然而,这些数据资源已被大量消耗。至少在基础数据层面,众多AI实验室培养出的SOTA或准SOTA模型在本质上并无显著差异。
在基础数据范围之外,众多顶尖模型各展所长,比如Anthropic的Claude模型在AI编程领域表现突出,谷歌的Gemini以及OpenAI的o系列模型近期则专注于数学领域,致力于让AI在IMO竞赛中摘得奖项。
这种在特定领域内的卓越表现,并非源自预训练过程,而是源于强化学习与人类反馈的结合。RLHF阶段成效的高低,除了依赖诸如PPO等创新算法之外,数据的品质也起着至关重要的作用。
Surge AI的一大特色在于其对于数据质量的极致追求,这一特点与创始人Edwin Chen丰富的职业背景密切相关。
Edwin Chen在AI领域的应用开发方面深耕超过十年,他遇到的最大难题在于,如何获取那些值得信赖的人工标注数据。
这个问题,又可以分为两个方面,速度慢和质量差。
诸如对关联性和精确度要求较高的数据标注工作,常常需要投入数月的时间。此外,不论是公司自设的标注团队还是外聘的标注公司,提供的数据质量普遍不尽理想。以Edwin Chen的一次经历为例,他发现外部公司提交的数据集中,高达50%的内容纯属无用信息。
在个人经历的影响下,Edwin Chen选择了投身于AI数据行业的创业之路,并于2020年成功创办了Surge AI公司。
在最近的访谈中,Edwin Chen分享了他对如何界定及制作高品质数据的见解,这种观点实际上为Surge AI带来了显著的市场优势。
他坚信人们对合成数据的评价过高,以他的客户为例,他们曾尝试使用合成数据,结果产生了多达一两千万条数据,然而其中99%的数据实际上并无用处。

因此,该系统认定人类提供的反馈是生成数据的最高准则。然而,并非所有的人类都具备良好的素质,目前存在一些标注员,他们所标注的数据质量相当低劣。比如,当客户希望训练一个模型来创作一首关于月亮的八行诗时,许多标注员在标注过程中会这样思考:这算是一首诗吗?它有八行吗?是否包含了“月亮”这个关键词?只要这些条件都得到满足,他们便判定这符合质量要求,AI也遵循了所有的指令。
显然,按照这个标准,AI不可能写出真正好的八行诗。
另一种导致AI模型评估出现误差的情形,便是所谓的竞技场模式。在此模式中,参与者会输入特定的提示,随后在5至10秒内对两个模型的输出结果进行对比,最终依据个人感受来挑选出较为出色的模型。
在这短短的5至10秒内,他们根本无法判断模型是否产生了幻觉,是否与事实相符,是否真正地遵循了既定指令。
人类若要生产高品质的数据,关键在于让专业人士各司其职。Edwin Chen曾以月亮主题的八行诗为例,指出在评价这类文学作品时,应请真正的诗人、文学家,如海明威等,而非仅仅依据清单上的要求。
Edwin Chen提出,优质数据的来源在于人类的智慧与创新能力。借助真正的高品质数据对模型进行训练与优化,模型不仅能学会执行指令,更能深入掌握深层模式,这些模式正是赋予语言与世界意义的关键所在。
Surge AI用人机协作的方式构建高质量数据生产流程
Surge AI在产品领域的根基主要在于其专业的标注团队,同时还包括他们自行搭建的评估机制以及专用的数据基础设施。
在实施过程中,他们率先舍弃了常规的电子表格工具,转而自行设计并打造了一套功能全面、可自由定制的数据标注模型。
随后,他们掌握了操作简便的API,这使得通过编程手段来设立标注作业变得异常便捷。
第三,他们视质量控制为一个挑战,为此搭建了复杂的机器学习系统,用以识别和纠正人工产生的误差。
最终,Surge AI配备了一套“人机交互”的架构。当客户提供的数据量不断增多,其算法的准确性也随之提升,进而使得机器学习模型能够承担越来越多的标注任务。
总体而言,Surge AI是一家倡导人机协作的企业,与那些仅作为“劳务中介”的传统数据标注机构有所不同。
Surge AI帮助Anthropic升级它的RLHF工作
据悉,Google、Anthropic以及OpenAI等领先的人工智能研究机构均采纳了Surge AI提供的数据标注服务。伴随着人类反馈强化学习(RLHF)在高级人工智能系统构建过程中的重要性不断提升,市场对于精确标注数据集的需求也在持续增长。
以Anthropic为例,其Claude系列模型在RLHF技术方面享有盛誉。然而,对大型模型实施精确的RLHF,首先必须建立一个能够收集大量高质量人类反馈的数据渠道;其次,需要有一支具备相应技能的团队对语言模型进行标注;此外,还需构建一个稳固的质量控制体系。这些任务本身都具有相当的难度。
Surge AI为Anthropic的RLHF项目贡献了独特的质量控制技术,包括领先的人机协作算法和科技;同时,还配备了各领域的专家标注员,涵盖编程、法律、医学、商业以及STEM学科;此外,还有红队测试工具。这些要素共同助力Anthropic培养出既擅长编码又善于交流的Claude模型。
02 AI行业对数据的渴求程度,质量大于数量
目前,AI模型性能的受影响程度中,后训练的作用正逐步与预训练相当,甚至可以说,后训练的优劣直接关系到模型是否具备独特的优势。与预训练相比,后训练对高质量数据的依赖性更强。这种依赖性在数据质量上的要求,超过了数量上的需求。
显而易见,在AI数据领域,众多企业均已认识到这一关键点。其中,Surge AI之外,另一家公司Micro1专注于高品质数据,其估值已达到5亿美元,正在进行融资活动。此外,我们之前提及的AI招聘企业Mercor,也加入了这一领域的竞争。
AI领域在数据处理上面临挑战,不仅因为优质数据的短缺,还因为众多细分行业中的高质量数据深藏于各自的数据孤岛之中。以工业数据为例,这些数据大多仅限于工厂内部,且未经整理与净化,若要用于模型优化,整理过程可能耗费巨大成本。如何以较低成本有效利用这些数据,或许正是创业者的机遇所在。
此外,在人工智能领域的一个重要分支——具身智能中,对于高品质的数据资源需求尤为迫切,其需求程度甚至超过其他领域,这是因为它们缺乏互联网的支撑,也不具备人类数千年累积的知识宝库。因此,向具身智能提供优质数据资源,对于该行业的进步将产生极大的促进作用。
阿尔法公社近期对一家专注于为具身智能模型提供优质数据的初创企业进行了早期投资,寄望该公司能够尽快助力具身智能领域步入“GPT-4”时代的门槛。


Copyright C 2018All Rights Reserved 版权所有 丽水招聘网 鄂ICP备2025091810号-6
地址:丽水市经济开发区生态产园集聚区 EMAIL:
Powered by PHPYun.