← 返回新闻列表
2026-01-08

CES 2026:英伟达发布史上最大开源数据集,覆盖10万亿Tokens

CES 英伟达 开源 数据集

2026年1月,CES 2026大会上,英伟达宣布了史上最大规模的开源AI数据集发布计划。

数据集规模

此次开源的数据集包含10万亿tokens文本语料、50万条机器人运动轨迹、100TB车辆传感器数据等,覆盖NLP、具身智能、自动驾驶等多个AI子领域。这为全球AI开发者提供了前所未有的训练资源。

四大开源模型

英伟达同时开源Nemotron系列四大模型——覆盖语音识别、RAG检索增强生成、AI安全等领域。Artificial Analysis评价其为"最开放的前沿AI开发技术栈之一"。Nemotron Speech语音识别性能比同类开源方案快10倍。

来源:CES 2026 · 2026年1月8日

关注爱眸科技,获取更多行业洞察

如有技术合作或商务咨询需求,欢迎与我们联系。