当前位置:首页 > 科技资讯 > 正文

字节跳动技术探索历程:从推荐系统到AGI愿景

在第五届字节跳动奖学金颁奖典礼上,字节跳动技术副总裁杨震原于11月24日详细分享了公司多年来在技术领域的探索与进展。

杨震原透露,2014年,字节跳动创始人张一鸣与他接洽,提出了利用大规模机器学习系统构建推荐系统的构想,旨在解决图片、文字和视频等多媒体内容的推荐问题。这个前沿想法深深吸引了杨震原,促使他加入了当时仍处于初创阶段的字节跳动。

杨震原提到,在2022年11月30日ChatGPT横空出世之前,字节跳动团队曾在2021年有过一次提前关注大语言模型的机会:当时一位同事已训练出一个大语言模型,但团队当时得出“该大语言模型暂无实用价值”的结论。

“所以还是很没眼光。”杨震原坦言道。

所幸公司调整迅速,从2022年开始在该方向投入资源,至今已取得一些成果。“应用上大家可能更熟悉,豆包是中国最流行的AI对话助手,火山引擎的大模型服务也受到客户认可,根据IDC报告,火山是中国MaaS市场的第一名。”

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第1张

字节跳动技术副总裁杨震原

以下为杨震原分享全文:

各位好,很高兴在字节技术奖学金这样一个场合与大家相见。我是一名技术爱好者,2014年加入字节跳动。从最初负责构建全新推荐系统起步,至今已近12年。这些年来,我持续参与了字节跳动的多项技术探索。

说起字节,多数人比较熟悉我们的产品,如抖音、今日头条、TikTok等。

我的视角可能更偏技术,今天借此机会,以我的视角分享一些大家可能不那么熟悉的技术故事。

2014,大规模机器学习与推荐系统

第一版就计划做到万亿(T)级别的特征规模

最初,创始人张一鸣找到我,告诉我他想用大规模机器学习系统搭建推荐系统,以处理各种媒体形式包括图片、文字、视频的推荐。这个想法让我十分着迷。

2014年,工业界最大规模的机器学习系统是搜索广告中成熟使用的大规模离散LR(逻辑回归)。将这套原理应用于推荐系统,挑战不小。当时同时熟悉大规模软硬件工程和机器学习的人不多,而且除了盈利丰厚的搜索广告,其他领域都不愿投入高昂硬件成本进行计算。

我们第一版就设定了一个激进目标:计划在2014年实现万亿(T)级别的特征规模。

这里面临诸多挑战,如系统建模、优化目标处理。工程上,存储和计算是前期主要门槛。此外,算法优化也需重视。构建目标和存储挑战此前已分享过,今天重点谈谈优化算法。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第2张

图源企业

LR优化是成熟技术,但不同方法在效率和效果上差异显著,尤其超大规模场景下。如今许多同学可能不了解当年优化器情况。当前SGD系方法主流,但2014年我们处理大规模稀疏逻辑回归时并非如此。当时CD系方法应用更广,此外百度搜索广告使用OWL-QN优化器。

我们当时仅5人,还需分配人员负责工程,优化器准备了两套方案:1. SGD-FTRL;2. CDN(坐标下降牛顿法)。两人分别负责,同步调研。

CDN优化器项目,我们初期判断较有潜力,进展也不错,但上线后发现问题,持续改进两年。直到SGD方法找到更多应用方式,该项目才停止。CDN项目组成员后来转向机器学习其他方向,负责公司重要业务。尽管项目未成功,公司仍认可他们的探索。

FTRL如今提及较少,可视为基于累计梯度、AdaGrad风格自适应、L1正则的SGD。该项目进展迅速,几个月上线,成功实现稀疏化万亿特征目标,且框架灵活。

14年底,我们逐渐引入FM类算法,后演化为更通用的深度学习体系。且从上线首日起,它就是一个流式训练系统。

至今,我们发现流式更新(仅训练)的较浅层神经网络算法在推荐中仍有不错效果。这可能与当前测试时训练中的某些问题相关,或许是更近似RNN的实现。

2020,科学计算的探索

求解薛定谔方程,即可模拟世界绝大部分现象。

约2019年底至2020年,我们曾讨论AI未来如何发展,以及如何在全社会发挥更重要价值?

当时思考是,只有大规模有价值数据才能产生足够价值的模型和算法。线上世界,推荐、搜索、广告是主流应用。那么,还有什么场景能产生大量有价值数据?显而易见是现实世界。但现实世界数据搜集与应用较复杂,涉及无人车、机器人等领域。除现实世界外,我们还想到科学计算。

世界虽纷繁复杂,但底层物理规律简洁。从量子力学角度,若有无上限计算能力的机器,我们确实可从薛定谔方程解出当前世界绝大部分现象(不考虑重力)。大量模拟将获得有价值数据,指导机器学习进步。得到更好结果后,又可改进模拟。

这张图是我们顾问鄂维南院士分享的图表,展示了不同尺度科学计算的分类。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第3张

图源企业

横坐标代表空间尺度,纵坐标代表时间尺度。此图展示了物理和科学计算的一些问题。如最左下角为第一性原理计算,包括CCSD、QMC等方法,需计算多电子波函数。向上走,分别为近似处理的DFT(密度泛函)。再向上,不再描绘波函数,而是用粒子抽象,即分子动力学MD,再向上抽象至粒子团簇;最上层为流体力学、有限元等更高抽象层次。机器学习在其中价值何在?图中L1、L2、L3、L4意指在这些不同尺度问题上,均可通过机器学习方法更好求解。例如,在最下层量子化学计算中,采用神经网络拟合多电子波函数。尽管物理规律描述简单,但计算异常复杂,因此机器学习能发挥巨大价值。

第一性原理计算

我们从2020年开始在该方向持续投入。此处有一张同事提供的图,展示了我们在此方面的一些工作。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第4张

图源企业

图中横坐标指时间,该领域早期代表工作如DeepMind的FermiNet等,2019年我们几人在会议室讨论过此项工作。此领域称为NNQMC(神经网络量子蒙特卡洛方法)。大致原理是:QMC即量子蒙特卡洛,根据变分原理,任何试验波函数计算所得系统能量总是大于或等于真实基态能量。于是,我们可用神经网络表示波函数,在该波函数上采样并计算系统能量。随后,沿能量更小方向的梯度更新神经网络,最终获得更优波函数表示。

粉色部分为我们2021年后的几项工作,我们基本已做到业界前沿。

此图纵坐标指仿真精度,即与物理实验的接近程度。仿真越接近真实,应用前景越好。圆的大小表明仿真体系电子数量,圆越大意味着更大实用价值。

最右上角有Scaling Laws with LAVA,这是我们最新成果。我们发现,此问题与大模型一样呈现Scaling Law,若使用更多参数,仿真精度持续上升。这是一个良好信号,说明我们在实用性方面还有很大突破潜力。

在处理体系范围上,我们提出了首个适用于固体体系的NNQMC方法DeepSolid。同时在二维转角材料研究上进行了一系列探索。今年重点工作之一是将NNQMC用于研究拓扑绝缘体。

拓扑绝缘体具有特殊电学性质,通电后器件内部无电流,但边缘产生电流。器件几乎不发热。

拓扑绝缘体“不发热”的电学性质十分诱人。因为当前CPU、GPU均会大量发热,造成能源损耗。若能用拓扑绝缘体替代,或许可制造超级计算机。

如何寻找拓扑绝缘体?应用上述方法,我们可根据材料描述仿真计算材料性质,从而大幅提升实验效率。我们具体计算了MoTe2这种二维材料,发现其在特定密度和旋转角度θ下会变为拓扑绝缘体,且与实验结果一致。

分子动力学

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第5张

图源企业

我们在分子动力学上也有诸多探索。MD(分子动力学)在鄂维南老师图中位于经典MD位置。我们的思路是先改进正问题,使用更高精度仿真为机器学习MD力场提供更精准标签。DFT(密度泛函分析)是一个合理层次。我们首先完成了DFT的GPU加速工作。我们的GPU4PySCF实现了GPU加速DFT计算的业界SOTA。相比传统CPU计算程序,实现速度1GPU≈500~1000CPU核心加速,完成相同计算任务算力成本降低一个数量级。

有了更好标签,我们可获得更准确力场模型,进而进行更精准MD仿真,实现更好性质预测。

当我们处理许多正问题后,可再次训练模型,直接生成可能满足某些性质的小分子候选,这就是逆问题。此问题是若干工业领域(能源、制药)的核心问题。我们团队开发了Bamboo-MLFF和ByteFF两类分子动力学力场,对分子、固体体系性质进行准确预测。其中ByteFF-Pol目前在无实验数据零样本预测电解液性质上实现了业界SOTA精度。

这些工作不仅限于实验。我们今年已与比亚迪成立联合实验室,将高通量自动化实验与科学计算算法结合,探索AI for Science在电池材料领域的工业落地应用。目前,GPU加速DFT计算、力场+分子动力学模拟、预测+设计模型均已投入企业合作伙伴实际应用。

2021,PICO——XR的探索

更多投资基础技术,追求核心体验上大台阶

字节跳动发展离不开硬件革新进步。大屏手机、高清摄像头是抖音、TikTok等产品发展的土壤。那么,接下来还有什么交互体验能超越视频?

XR有潜力带来全新体验。2021年,字节收购了Pico团队。

收购后,我们同步推进两个产品路线:一是以当前产品形态为主,同时投入资源运营视频、直播等内容,进行较为激进的营销;二是投资基础技术,追求核心体验上一个大台阶。

2023年,我们决定减少内容和营销投入,更坚定地投入技术路线。这是因为当时产品硬件体验尚未成熟,无法支撑大规模市场应用。此调整曾带来一些误解,不少人认为字节不再专注此方向。其实恰恰相反,23年开始,我们在XR上的技术投入比以前更多。

接下来,分享路线二中的一些技术探索。

首先是清晰度。

XR要模拟人眼观察真实世界的体验,关键指标是PPD(每度像素数),即人眼每度视场角内的像素数量。此指标与观看距离、屏幕PPI(像素密度)强相关。

PPD大于30大致可阅读文字,40则较清晰。PPD达到60时视觉体验接近视网膜级清晰度。2021年,Pico 3、Quest 2等主流产品PPD实际小于20,且这仅是中心区域,边缘更差。若XR产品无法看清文字,使用场景必然受限,这是需解决的重要挑战。

2022年我们开始研究如何改进,最终决定与供应商启动MicroOLED定制。MicroOLED是在单晶硅片上制备主动发光型OLED器件的新型显示技术。相比其他显示技术(如高PPI的LCD液晶屏),microOLED在实现单眼4K级超高分辨率时,仍能保持更小面板尺寸。这使得光学显示系统进一步缩小,从而让MR头显轻便的同时获得更高PPI和整体清晰度。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第6张

图源企业

若对比iPhone,iPhone 17 Pro Max为6.9英寸,PPI为460。我们2022年定制MicroOLED的目标是什么?我们要做到近4000 PPI,约是iPhone 17的九倍,因此挑战巨大。

MicroOLED虽有超高PPI,但每个像素点极小,导致屏幕亮度上限较低。我们通过导入微透镜(MLA)提升亮度,副作用是色亮度均一性变差。这需结合光学设计,通过主光线角(CRA)定制和系统性补偿,让亮度和色亮度均一性同时达到最优状态。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第7张

图源企业

在我们启动的时间点,市场现有产品在多维度(如分辨率、亮度、功耗、成本等)无法满足要求。我们只能与供应商共同解决硬件、软件、算法问题。我们约2022年启动,至今已较好解决。最终成品平均PPD40,中心区域超过45,可谓行业领先。

MR也是重要技术挑战。

传统VR无法看到现实,更无法实现融合。MR(混合现实)代表新一代技术:能看到现实,并能将虚拟物体与现实世界融合。但这带来巨大技术挑战。

例如SLAM技术,核心是让头显精准感知用户位置与姿态角度;为实现运动补偿,还需进一步估算运动速度。同时,微显示屏上的高清图像通过光学镜头后会产生畸变,如边缘拉伸、中心放大,因此需进行逆畸变处理。从源头到输出,整个过程计算量巨大,且需对高清、高帧率视频实时处理,延迟要求极低。在有限功耗空间内,此问题尤为困难。

若处理不佳,会导致眩晕感。如何低延迟、高精度完成计算是核心问题。这需要强大且低功耗的算力,必须专用芯片才能实现。

于是,2022年6月我们正式立项,全链路自研一颗头显专用消费电子芯片以解决处理瓶颈。芯片于2024年回片,目前进入量产阶段,各项指标均达设计要求。

目前实测中,我们的系统延迟可做到12毫秒左右,这非常不易。即便是世界顶尖公司,用软件处理也难在不明显牺牲画质前提下将延迟压至25毫秒以内。

字节跳动技术探索历程:从推荐系统到AGI愿景 字节跳动 机器学习 科学计算 大模型 第8张

图源企业

交互挑战也非常重要。若希望实现虚实融合,需对现实环境进行识别。我们需要高精度地面真值进行校准与训练。为此,我们建设了专业高精度测试系统。

新MR设备交互需眼动追踪、手势追踪,这些也都需要高精度地面真值。只有收集较广泛数据,才可能让体验在更广泛人群上保持鲁棒的高体验。因此我们也建立了专门3D重建机制与高精度手势数据采集系统。

XR之路漫长,挑战众多。以上仅举部分技术例子。26年我们将有新产品发布,期望未来通过持续技术研发,为大家带来体验更好的产品。

2023,大模型的时代

2022年11月30日,ChatGPT横空出世,2023年引起广泛关注。我们在2021年曾有机会提前关注。

当时一位同事训练了一个大语言模型,但我们不知如何应用。我们考虑是否可用于改进搜索?于是将此预训练LLM在搜索相关性任务上微调。结果与BERT模型对比,提升幅度很小,计算成本却增加许多。于是得出结论:此LLM目前无用。所以确实缺乏眼光。

不过公司调整迅速,2022年我们开始在此方向投入。现在,我们也取得一些成果。应用上大家可能更熟悉,豆包是中国最流行的AI对话助手,火山引擎的大模型服务也受客户认可,根据IDC报告,火山是中国MaaS市场第一名。

技术上我们也有自身特点。得益于此前积累,我们在基础设施方面做得较好。我们很早就建设了大规模稳定训练系统MegaScale,在训练任务上,MFU(浮点运算利用率)超过55%,这是当时主流开源框架的1.3倍以上,效果不错,有兴趣可查看我们24年年初的相关论文。

我们在模型结构、自研服务器上也有许多探索,这也让我们实现大模型的低调用成本。因此,我们通过火山引擎提供服务时,才能打破业界价格下限,同时保证自身不错毛利。

我们的GenMedia模型、VLM、语音模型表现良好,长期属于国际一流水平。此外,在大模型研究方面还有更前沿探索,我们称为Seed Edge计划。此处不展开。

对未来大模型如何发展,我亦不确定,但可提几个小问题供大家讨论。

众人皆谈AGI,但何为AGI,应如何评估是否达到AGI?

观点各异,我谈谈我的看法。我们可以做一个思想实验。假设将全世界人类工作(包括初级工作和顶尖科学家工作)全部交由AI完成。我们设定一个比例,如95%,若95%的工作AI均能完成,或许就可说真正达到AGI了。

AI能力发展非常不均衡,如今大模型可在国际数学奥林匹克获金牌,这恐怕已超过99.9%的人类。但对于许多工作,如初中生可胜任的电话客服,大模型目前仍不能完全做好。

那么从补短板角度思考,为何如此?一个直观原因是模型的学习能力。

目前大模型分阶段:训练阶段和推理阶段。当模型部署上线开始服务后,不再被训练,或仅能进行上下文学习。这与人类不同,人类是持续学习的。

例如电话客服,一位名校博士可能起初不知如何做好,但人可快速学习,或许几天就能胜任。且人类学习效率高,并能充分利用社会环境,如询问老员工或经理该如何做。

因此,如何提升大模型学习能力是一个重要问题。最好每个人都能以自己的方式教授知识给大模型。

第二项能力是IO能力,即与世界交互的能力。这也显而易见。即使在数字世界,尽管当前大模型在视频、图片合成方面能力已超人类,但在众多内容理解、界面操作等方面,模型仍与人类有较大差距。

这些都是非常基础但值得深入研究的问题。

有人说,2023年是人类历史上第三个奇迹年,我认为毫不为过。AI发展预期将为人类社会带来巨大变革,这场变革中将有无数问题需要技术人探索解决。

字节跳动也将在大模型等前沿领域持续耐心探索,希望为人类社会贡献自身力量。