这段时间搞大模型的血和泪
李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。
1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。
2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和[商业逻辑]。
3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babysitting。
4.由于单次实验成本过高,半自动化、自动化评测都不能全信,叠加主观评测的话导致sop严重滞后,所以再留下来了一系列的玄学,中间[未解之谜]根本没有资源探索。比如说我们经常出现:15天前训练到xxxx个step的那个模型效果是最好的,而且数据和模型版本管理基本混乱,只能靠[时间戳]+锁死评测关口,结果至上。
5.和硬件的绑定是下一步关键:一方面,供给侧上如果有更强的ASIC来支撑,那训练和推理的成本会进一步降低,探索空间也会扩大;另外一方面,输出侧和硬件绑定是未来(目前具身智能暂时没法用大模型),以及各种[可穿戴设备](例如rayban+meta的尝试)。
6.LLM输入侧会进一步扩展到其他模态;例如VLM/VLA输入包含图像和视频信息,我们TableGPT是搞那些[结构化数据](包括db、传感器数据etc),还有语音等等。
7.LLM输出侧的扩展是未来啊,除了输出语言、代码、思维步骤,还需要对接各类硬件设备的接口、SDK等等,这里的稳定性和工程加工兜底一定是短期内关键中的关键。
8.安全性对齐,或者大模型输出"不出框"的对齐工作,我还是看好那些新的东西,比如说[世界模型]、Verifier啥的
写一笔,继续消失...
原文:https://zhuanlan.zhihu.com/p/716420396