马斯克xAI公布大模型详细进展,Grok只训练了2个月

发布网友发布时间：2024-10-09 17:15

共1个回答

热心网友时间：2024-10-09 17:59

近几日，马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok 。此产品不仅具备幽默和嘲讽技能，还以其独特的回答方式和实时了解世界的能力吸引了不少关注。在回答危险问题时，Grok 会给出玩笑似的答案，提醒用户这是违法的。而在检索特定信息时，它则以一种嘲讽的语气给出答案，展现出其独特的风格。

在博客中， xAI 介绍了他们打造 Grok 的愿景：希望创造一些 AI 工具，帮助人类寻求理解和知识。他们希望 AI 工具能够回答几乎任何问题，甚至可以建议用户提问。Grok 的对话能力当前是由一个名叫 Grok-1 的大模型来支撑的，这是他们在过去四个月的时间里开发出来的。Grok-1 经历了多次迭代，并在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力，只使用了一半的训练资源。

在公布了 xAI 创立的消息之后，他们训练了一个 330 亿参数的 LLM 原型 ——Grok-0。这个早期模型在标准 LM 测试基准上接近 LLaMA 2 (70B) 的能力，但只使用了一半的训练资源。在过去的两个月里，他们对模型的推理和编码能力进行了重大改进，最终开发出了 Grok-1，这是一款功能更为强大的 SOTA 语言模型。

Grok-1 在这些基准测试中显示出了强劲的性能，超过了其计算类中的所有其他模型，包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源训练的模型才能超越它。xAI 表示，这展示了他们在高效训练 LLM 方面取得的快速进展。

xAI 也表示，由于这些基准可以在网上找到，他们不能排除模型无意中在这些数据上进行了训练。因此，他们在收集完数据集之后，根据五月底（数据截止日期之后）公布的 2023 年匈牙利全国高中数学期末考试题，对他们的模型（以及 Claude-2 和 GPT-4 模型）进行了人工评分。结果，Grok 以 C 级（59%）通过考试，Claude-2 也取得了类似的成绩（55%），而 GPT-4 则以 68% 的成绩获得了 B 级。

为了克服这些挑战，xAI 采用了一组自定义分布式系统，以确保系统在每次故障发生时能够立即识别并自动处理。xAI 将高效计算作为重点，在过去几个月里，其基础设施能够最大程度地减少停机时间并保持较高的 MFU（Model Flop Utilization），即使存在不可靠的硬件也是如此。

目前，xAI 正在为 Grok-1 模型功能的下一次飞跃做准备，而这需要协调数万个加速器运行，并在 Grok 中构建新的功能和工具。在深入推理能力、多模态能力、对抗稳健性等方面，xAI 也在不断研究和改进。

xAI 认为，实现可靠推理是解决当前系统局限性最重要的研究方向。通过借助一些工具进行可扩展监督、集成了安全、可靠、准确的验证方式、对长上下文的理解与检索、对抗稳健性等方面的研究，xAI 旨在让 AI 系统能够对现实世界进行深入推理。

xAI 为 Grok 配备了搜索工具和实时信息的访问权限，旨在帮助用户处理各种问题和任务。同时，他们也在关注 AI 的潜在风险，致力于开发可靠的保障措施，防止 AI 被恶意使用。xAI 相信 AI 能够为社会、经济和科学带来巨大的潜力，因此他们会坚定不移地开发可靠的保障措施，确保 AI 仍然是一股正义的力量。