当前位置:首页 > 科技资讯 > 正文

00后创办英国AI芯片企业Olix,获2.2亿美元融资

芯东西最新消息,据外媒报道,一家由00后创立的英国神秘AI芯片公司Olix,成功获得2.2亿美元(约15亿元人民币)的融资,公司估值已超过10亿美元(约69亿元人民币),正式迈入独角兽行列。

Olix(原名Flux Computing),成立于2024年3月,总部位于伦敦,由年仅25岁的James Dacombe创立。该公司致力于开发比英伟达GPU更快、更经济的AI芯片。

值得一提的是,Dacombe不仅是Olix的创始人,同时也是另一家英国脑监测公司CoMind的创始人兼CEO。CoMind成立于他18岁时,并已成功融资1亿美元(约7亿元人民币)。

00后创办英国AI芯片企业Olix,获2.2亿美元融资 Olix AI芯片 融资 独角兽 第1张

▲ Olix创始人James Dacombe

针对AI推理需求,Olix正在研发一种新型AI芯片,旨在实现高吞吐量和高交互性,以应对严苛的推理工作负载,同时突破现有AI芯片的架构和供应链限制。

Olix光学张量处理单元(OTPU)是一款结合新型存储器和互连架构的光学数字处理器。

团队相信,通过结合SRAM架构光子学技术,Olix能在每兆瓦吞吐量和总拥有成本上超越基于HBM的架构,同时在交互性和延迟方面实现显著优势。

迄今为止,Olix已累计融资2.5亿美元(约17亿元人民币)。据知情人士透露,公司计划最早于明年向客户交付首批产品。对于此次融资事宜,Olix选择保持沉默。

Vertex Ventures的普通合伙人、前Facebook基础设施高管Jonathan Heiliger表示,AI推理需要对芯片制造方式进行彻底重新思考,大规模重构系统级架构极具挑战性。他称赞道:“James和他的团队执行速度之快,甚至超越了拥有十倍资源的公司。”

目前,英国芯片公司的融资规模落后于美国。另一家英国AI芯片公司Fractile近日宣布,计划在未来三年内投资1亿英镑(约9亿元人民币),以扩大在英国的业务。

Olix在官网分享其芯片设计思路:

现有的GPU架构已接近物理极限,当前硬件无法同时为每个用户提供快速推理。

这种权衡取舍是TPUv2和V100以来所有主流加速器所采用的内存架构固有的——一个大型逻辑芯片放置在中介层上,旁边是堆叠的HBM内存。

只有批量处理大量用户数据,充分利用计算资源,并将模型权重通过HBM传输到大量输出token的能耗分摊,才能实现每个XPU和每兆瓦的高吞吐量。

但大批量处理会增加每个用户的延迟,降低交互性,使用户面临艰难权衡。

推理性能受限于数据传输。因此,尽管逻辑效率(FLOPs/W)和吞吐量(每个封装的FLOP)持续提升,但收益递减。数据传输时间的缩短受到内存墙以及封装互连边界长度和封装尺寸的限制。

虽然从HBM2到HBM4的过渡在能效和吞吐量密度方面取得显著提升,但要实现如此巨大的改进需要近十年时间,并且需要更加复杂和昂贵的制造技术。

HBM性能提升带来的能效提升有限,不可避免地限制了每个token传输KV cache所需的 pJ/bit 能量,从而也限制了当前架构中token总能耗的下限。

过去十年间,这种架构扩展提升了系统的整体性能,但进一步扩展无法同时实现高吞吐量和高交互性。从英伟达Hopper到Rubin Ultra,封装尺寸大约增长了四倍。再增长四倍将接近晶圆级封装的极限。

更大的封装可以缩短数据传输时间并提高交互性,但无法降低固定数据传输延迟。因此,阿姆达尔定律限制了未来通过进一步增大封装尺寸来提升交互性的可能性。

数据从HBM经由中介层进入计算单元的物理路径并未发生根本性改变,但随着跨光罩高带宽接口的引入,其复杂性却日益增加。

因此,以每次缓存命中或未命中时间衡量的数据传输延迟已接近或达到极限,并逐渐成为每个token延迟中越来越重要的组成部分。

虽然可以通过更大层的张量并行性进一步缩短每层的数据传输时间,但这会增加功耗和互连延迟。

此外,高吞吐量编码方案也会引入编码和解码延迟,进一步提高每个token的最低延迟,并限制可实现的交互性。

如果可以通过规模、集成或执行来解决这一权衡问题,那么当今计算生态系统的核心企业将是做这件事的主体。由于预付了数十亿美元以确保获得领先的逻辑节点、HBM和先进封装能力,这类公司将在软件、系统集成和供应链方面拥有巨大的护城河。

每一代都加倍强化这种方法。系统规模越来越大,集成度越来越高,目标也越来越远大。绝对性能持续提升,但底层限制却始终不变,因此仍然无法同时实现高交互性和高吞吐量。

能够同时提供高吞吐量和高交互性的硬件,必须同时解决大规模数据传输效率和延迟问题。

任何仅改善其中一个维度的方法都只是改变了权衡的本质。