阿布扎比技术创新研究院发布了Falcon 180B语言模型
阿布扎比技术创新研究院上周发布了Falcon 180B语言模型,他们声称模型质量超过了LLaMA 2并且与PaLM 2相当,仅次于GPT-4。模型是开源的,可以用于商业用途,Falcon 180B在3.5 万亿Token上进行训练,规模是 Llama 2 的 2.5 倍,所需计算量是 Llama 2的4 倍。Falcon 180B在 MMLU上的表现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5。训练数据集主要来自RefinedWeb 数据集 (大约占 85%),这个数据集中文占比很少。数据集的代码只占5%左右,所以如果他说的超过GPT-3.5应该不包括代码能力。
Huggingface上的介绍文章:huggingface.co