DeepSeek是一个由杭州深度求索人工智能基础技术研究有限公司开发的AI工具,成立于2023年7月17日。它的主要业务包括技术开发、咨询服务和人工智能应用软件开发等。DeepSeek的核心产品包括:
DeepSeek是什么
DeepSeek LLM:这是一个包含670亿参数的模型,经过在2万亿token的数据集上训练,涵盖中英文。它开源了7b/67b base和chat版本,其中67b base在推理和编码方面表现优于Llama2 70b base,而67b chat则在编码和数学方面表现出色,中文表现优于GPT-3.5。
DeepSeek Coder:这是一个由一系列代码语言模型组成的产品,也在2万亿token上进行了训练,包含87%的代码和13%的中英文自然语言。模型尺寸从1b到33b版本不等,在多种编程语言和基准测试中达到了开源代码模型的优秀性能。
推荐下载:《DeepSeek从入门到精通指导手册》
DeepSeek-V2:这是2024年5月开源的第二代Moe大模型,拥有2360亿参数,中文综合能力在众多开源模型中最强,英文综合能力与Llama3-70B处于同一梯队,训练效率高,计算量仅为MetaLlama 3 70B的1/5、GPT-4的1/20。
DeepSeek-R1:这是2025年1月20日发布的模型,在数学、代码、自然语言推理等任务上性能比肩OpenAI O1正式版。1月24日,在Arena基准测试中升至全类别大模型第三,在风格控制类模型分类中与OpenAI O1并列第一。
DeepSeek因其技术创新和广泛的应用场景,在全球范围内引起了广泛的关注和讨论,尤其是在减少AI模型训练对昂贵计算资源的依赖、降低成本、提高训练效率等方面,展现了显著的优势。此外,DeepSeek还因其在自然语言处理、代码生成和AI搜索功能方面的出色表现,在多个应用领域展现出了强大的竞争力。