近期,一款名为DeepSeek的国产AI大模型在国际舞台上大放异彩,同时也让一位95后的AI“才女”罗福莉走进了公众视野。
中国量化投资领域的佼佼者——幻方量化旗下的AI大模型研发公司Deepseek,宣布其最新研发的DeepSeek-V3系列模型首个版本正式上线,并决定对外开源。这一消息在科技圈内引起了轩然大波。
DeepSeek-V3是Deepseek自主研发的混合专家大模型(MoE),其性能卓越,不仅与全球顶尖的开源及闭源模型相媲美,甚至在某些方面超越了它们。更令人瞩目的是,该模型的训练成本极低,被誉为“AI界的拼多多”,其高性价比赢得了国内外众多业内人士的赞誉和关注。
与此同时,罗福莉这个名字也随DeepSeek一同走红。作为DeepSeek-V2研发的关键成员之一,罗福莉在AI领域的才华备受瞩目。据报道,小米创始人雷军已向罗福莉抛出橄榄枝,开出千万年薪邀请她加入小米AI实验室,领导大模型团队。这一消息无疑为罗福莉的职业生涯增添了浓墨重彩的一笔。
罗福莉的学术背景同样令人瞩目。她本科就读于北京师范大学计算机专业,后在北京大学攻读计算语言学硕士学位。在校期间,她就展现出了非凡的学术潜力。2019年,还在北大读硕士的她,在人工智能领域顶级国际会议ACL上发表了8篇论文(其中2篇为第一作者),这一成就让她在知乎上登上了热搜。面对网友的赞誉,罗福莉用本人知乎账号回应称,这是自己近一年的努力成果,当然也有一定的运气成分。
毕业后,罗福莉加入了阿里达摩院,从事人工智能研究和预训练语言模型相关工作。她主导开发了多语言预训练模型VECO,为阿里达摩院的AliceMind开源项目做出了重要贡献。2022年,罗福莉转战幻方量化,从事深度学习相关策略建模和算法研究。不久后,她又跳槽到DeepSeek,继续深造并参与了MoE大模型DeepSeek-V2的研发。
DeepSeek-V2发布后,罗福莉在知乎上发表了自己的看法。她认为,DeepSeek-V2的中文水平真实处于国内外闭源模型的第一梯队,而且价格亲民,性价比极高。这一评价进一步彰显了罗福莉在AI领域的专业素养和独到见解。
小米招募罗福莉只是其全面发力AI大模型的一个缩影。2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,与合作伙伴共同开拓更多机会。今年11月,小米成立了专门的AI平台部,由小米元老级技术大牛张铎担任负责人。张铎在清华计算机系本硕毕业,曾被雷军誉为“小米的大神”,并送以“铎神”的称号。
为了支撑AI大模型的研发,小米在算力储备上也下了不少功夫。据报道,小米正着手搭建自己的GPU万卡集群,并在过去几个月里持续提升算力供给。雷军在公开演讲中表示,小米做大模型的思路与众不同,选择主力突破的是轻量化和本地部署。对于小米这样注重“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而拥有DeepSeek-V2研发背景的罗福莉,或许正是小米解决这一问题的关键人物。