Gemma

Gemma简介

Gemma是谷歌DeepMind团队开发的轻量级开放AI模型系列，基于Gemini同源技术，提供2B/7B参数量版本，支持多框架部署与商业应用。

Gemma核心特性

轻量级架构：适配PC/工作站等多环境运行

开放商业授权：开放权重支持商业分发

双模型版本：2B/7B参数规模可选

RLHF优化：指令微调版确保行为可控

多框架兼容：支持JAX/PyTorch/TensorFlow

跨硬件优化：适配NVIDIA GPU/TPU加速

技术架构亮点

基于Transformer解码器架构，采用多头注意力机制
使用RoPE旋转位置嵌入减少模型尺寸提升效率
GeGLU激活函数替代ReLU增强特征表达能力
TPUv5e分布式训练，2B模型训练数据达2万亿token

官方资源入口

核心资源	访问链接
官方主页	点击前往官网
模型权重库	Hugging Face/Google Cloud
技术白皮书	deepmind-media/gemma-report.pdf
代码实现	GitHub: google/gemma_pytorch
在线运行	Google Colab快速部署环境

安全与责任机制

遵循Google AI原则，训练数据经自动化敏感信息过滤
通过红队测试/对抗性评估确保输出安全性
提供Responsible AI Toolkit含安全分类器与调试工具
预训练数据过滤有害内容，保障模型可靠性

性能表现

在MMLU/MBPP等18项基准测试中，11项超越Llama-13B/Mistral-7B，尤其在数学推理与代码生成任务中表现突出。第二代模型Gemma 2已发布，进一步提升多语言处理能力与指令跟随精度。

相关导航

BLOOM

AI训练模型BLOOMhttps://huggingface.co/docs/transformers/model_doc/bloomHuggingFace研发的大型语言模型HuggingFace研发的大型语言模型

Jan

免费开源的本地大模型AI对话工具

文心大模型

AI训练模型文心大模型https://wenxin.baidu.com/百度推出的产业级知识增强大模型<meta name='description' content="百度推出的产业级知识增强大模型">百度推出的产业级知识增强大模型百度推出的产业级知识增强大模型百度推出的产业级知识增强大模型百度开发的产业级知识增强大模型