人工智能公司Synthetaic宣称合成数据在AI领域与真实数据一样好用

摘要: Synthetaic是一家开发用于培训AI模型的合成数据的初创企业,已在风险投资回合中筹集了1500万美元。

人工智能公司Synthetaic宣称合成数据在AI领域与真实数据一样好用

人工智能公司Synthetaic宣称合成数据在AI领域与真实数据一样好用

还记得2023年的中国“间谍”气球吗?如果不记得,让我给你提个醒:大约一年前,一颗来自中国的高空气球在美国领空飞行,基本上没有被察觉。后来,这颗气球被美国空军发现并击落,但对于好奇的民众来说,追溯气球的起源一直是个难题,直到像Synthetaic这样的AI公司展示了可以通过卫星图像追踪气球。

这个气球事件成为了Synthetaic的一个强大产品演示机会,吸引了包括国防承包商Booz Allen Hamilton在内的投资者的注意。

本周,Synthetaic在B轮融资中筹集了1500万美元,由Lupa Systems和TitletownTech共同领投,后者是由绿湾包装工和微软合作成立的风险投资公司,IBM Ventures和前述的Booz Allen Hamilton也参与了投资。这笔新的资金将用于加速公司计算机视觉技术的商业化,并在年底前将Synthetaic的员工人数增加到80人,公司总融资额达到3250万美元。

Synthetaic的首席执行官Corey Jaskolski在接受TechCrunch的电子邮件采访时表示:“生成的图像数据量正在呈指数增长,这凸显了对先进AI解决方案来管理和分析这些大量信息的需求日益增长。我们看到,从这些海量数据中获取洞察力仍然是许多行业(如国防、地理空间、视频安全或基于无人机的监测)的重要痛点和优先事项。Synthetaic在无监督学习和数据分析方面的AI解决方案使我们在应对这个不断发展的技术领域中处于战略位置。”

Jaskolski是麻省理工学院的毕业生,曾任《国家地理》杂志的技术总监。他是一个勇敢的冒险家,曾在南极潜水员冰山中潜水,下潜到海洋表面以下12500英尺探索泰坦尼克号残骸,领导直升机项目绘制了一张珠穆朗玛峰尼泊尔侧的地图,并深入洞穴中记录玛雅人的人祭受害者和冰河时代的熊骨。

人工智能公司Synthetaic宣称合成数据在AI领域与真实数据一样好用

那么,像Jaskolski这样一个敢于冒险的环球旅行者为什么要创办Synthetaic呢?他说,这很简单,他意识到AI有潜力帮助对世界信息进行分类,但需要手动标注数据的需求一直在阻碍AI的发展。

Jaskolski说:“人工标注是AI训练的常规方式。随着AI模型变得越来越大,它们的性能也越好,但它们需要更多的数据进行训练,因为它们有越来越多的内部可调参数。很长一段时间以来,解决这个问题的行业解决方案一直是让成千上万的人对物体进行标注,然后训练AI。但如果我们不需要人工标注数据呢?”

Synthetaic成立于2019年,提供了一种名为Rapid Automatic Image Categorization(RAIC)的工具,用于自动分析大型数据集,特别是不包含标签的卫星图像和视频。

许多AI模型是通过让一组人(标注者)对数据进行标注来进行训练的,这样模型就可以学习将某些注释(即标签)与数据的特征相关联。例如,一个模型如果被喂入了大量带有每个品种注释的猫的图片,最终它将“学会”区分短尾猫和长毛猫。

相比之下,用户只需向RAIC提供一张图片,RAIC就能找到数据集中与该图片相似的其他位置。

在中国气球的案例中,这使得Synthetaic的平台能够仅凭一张从空间中看气球的草图和最近的卫星图像,就能发现气球的位置。

Jaskolski说:“RAIC意味着能够处理稀缺或复杂的数据集,加速AI开发,改进预测建模,而不受数据数量或质量的限制。这使得RAIC成为推动创新、提高运营效率和竞争优势的战略资产,特别是在数据成为AI采用和实施的瓶颈的应用案例中。”

Synthetaic并不是唯一一个探索在模型训练中使用合成数据的公司。

Synthesis AI是一家在2022年4月融资1700万美元的公司,正在开发一个生成合成数据以训练各种类型的AI系统的平台。两年前,Scale AI推出了一个计划,允许机器学习工程师用合成样本增强现有的真实世界数据集。此外,还有像Parallel Domain这样的公司,为自动驾驶等特定用途创建合成数据。

根纳特预测,到2024年,用于AI和分析项目开发的数据中将有60%是合成生成的。但是,尽管行业在不断发展,一些专家担心合成数据的缺点和潜在危险被忽视。

人工智能公司Synthetaic宣称合成数据在AI领域与真实数据一样好用

在2020年1月的一项研究中,亚利桑那州立大学的研究人员展示了一个基于教授图片数据集训练的AI系统可以创建高度逼真的面孔,但这些面孔大多是白人男性。该系统放大了原始数据集中的偏见,而原始数据集主要捕捉到的是男性和白人教授。

对于Synthetaic的客户来说,这些风险并没有让他们退缩。

这家初创公司声称已与美国空军合作,在地理空间数据中测试基于AI的物体检测,并与非营利环保组织The Nature Conservancy合作,发现了之前被认为已经灭绝的鸟类物种。Synthetaic还与空军研究实验室AFWERX签订了合同,为卫星捕捉的图像提供物体标注、AI建模和物体检测技术。

Jaskolski相信RAIC在无数其他领域都有应用,从AI原型设计到基于

© 版权声明

相关文章

暂无评论

暂无评论...