
LLM大模型
文章平均质量分 78
葡萄爱
大模型业务系统融合/政务系统研发/智能体金融分析模型开发/LLM大模型训练、微调/
展开
-
deepseek免费大模型搜索工具发布
自然语言处理(NLP):DeepSeek在自然语言处理领域有着深入的研究,开发了先进的语言模型和对话系统,能够理解和生成自然语言,广泛应用于智能客服、文本分析、机器翻译等场景。公司注重技术创新和实际应用的结合,致力于成为全球领先的人工智能公司之一。机器学习与深度学习:DeepSeek利用机器学习和深度学习技术,构建了强大的数据分析和预测模型,帮助企业优化决策、提升运营效率。行业应用:DeepSeek的技术广泛应用于金融、医疗、教育、零售等多个行业,提供智能化的解决方案,帮助企业实现数字化转型。原创 2024-12-13 12:45:41 · 9300 阅读 · 4 评论 -
深度全解析开放开源大模型之BLOOM
BLOOM是 BigScience Large Open-science Open-access Mul-tilingual Language Model首字母的缩写。BigScience 不是财团(consortium),也不是正式成立的实体。这是一个由HuggingFace、GENCI和IDRIS发起的开放式协作组织,以及一个同名的研究研讨会(workshop)。其主页为 https://bigscience.huggingface.co/原创 2024-12-07 18:10:12 · 1119 阅读 · 0 评论 -
Megatron 和 deepspeed 大模型训练框架
现在都是fp16或者bf16训练和推理,那么如果是1个100亿参数量的模型(也就是储存了100亿个参数),它其实是一个10B大小的模型。训练时,如果用Adam优化器,有个2+2+12的公式,训练时显存下限是16n GB,需要把模型参数、梯度和优化器状态(4+4+4),保持在显存中。1个字节占8bits,那么fp16就是占2个字节(Byte),那么10B模型的模型大小是20GB,是*2的关系。megatron是NV家的,张量并行(TP)是最专业的,尽管通信速度限制TP应用在有NVLINK的节点内。原创 2024-12-07 18:02:55 · 1574 阅读 · 0 评论