谷歌发布Gemma 3n:革新性的边缘计算多模态AI平台

来源:网络时间:2025-05-29 18:06:32

在全球科技巨头的持续创新浪潮中,谷歌再次引领风骚,隆重推出Gemma 3n——一个专为端侧应用设计的突破性多模态人工智能模型。这一技术巨擘的最新力作,旨在彻底变革设备上的智能处理能力,将复杂的AI运算无缝融入日常生活的小型设备中。Gemma 3n通过集成视觉、语音等多种数据模式的处理能力,不仅提升了设备的智能化水平,更在隐私保护和效率优化上树立了新的标杆。这意味着,从智能家居到可穿戴设备,用户将享受到更加流畅、响应更快且高度个性化的智能体验,而这一切,无需依赖云端,直接在设备本地实现,标志着人工智能技术向更加自主、安全的未来迈出重要一步。

  Gemma3n是什么   

gemma3n是谷歌i/o开发者大会推出的端侧多模态ai模型。基于gemininano架构,采用逐层嵌入技术,将内存占用压缩至2-4b参数模型水平。模型参数量分别为5b和8b,内存占用仅相当于2b和4b模型。gemma3n支持文本、图像、短视频和音频输入,可生成结构化文本输出。新增的音频处理能力,能实时转录语音、识别背景音或分析音频情感。可通过Googleaistudio直接在浏览器中使用。

  Gemma 3n— 谷歌推出的端侧多模态AI模型Gemma3n的主要功能   多模态输入:支持文本、图像、短视频和音频输入,可生成结构化文本输出。例如,用户可上传照片并询问“图中的植物是什么?”,或通过语音指令分析短视频内容。   音频理解:新增音频处理能力,能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。   设备端运行:无需云端连接,所有推理在本地完成,响应时间低至50毫秒,确保低延迟和隐私保护。   高效微调:支持在GoogleColab上进行快速微调,开发者可通过几小时的训练定制模型,适配特定任务。   长上下文支持:Gemma3n支持最长128Ktokens的上下文长度。   Gemma3n的技术原理   基于GeminiNano架构:Gemma3n继承了GeminiNano的轻量化架构,专为移动设备优化。通过知识蒸馏和量化感知训练(QAT),在保持高性能的同时大幅降低资源需求。   逐层嵌入技术:采用逐层嵌入(Per-LayerEmbeddings,PLE)技术,显著降低了模型的内存需求。模型的原始参数量分别为5B和8B,内存占用仅相当于2B和4B模型,只需2GB或3GB的动态内存即可运行。   多模态融合:结合了Gemini2.0的分词器和增强的数据混合,支持140多种语言的文本和视觉处理,覆盖全球用户需求。   局部/全局层交错设计:采用5:1的局部/全局层交错机制,每5层局部层后接1层全局层,以局部层作为模型的第一层开始计算。有助于减少长上下文时KV缓存爆炸问题。   Gemma3n的项目地址   项目官网:   Gemma3n的应用场景   语音转录与情感分析:能实时转录语音、识别背景音或分析音频情感,适用于语音助手和无障碍应用。   内容生成:支持在手机上生成图像描述、视频摘要或语音转录,适合内容创作者快速编辑短视频或社交媒体素材。   学术任务定制:开发者可用Gemma3n的微调功能,在Colab上为学术任务定制模型,如分析实验图像或转录讲座音频。   低资源设备:专为低资源设备设计,仅需2GBRAM即可在手机、平板和笔记本电脑上流畅运行。   

以上就是Gemma3n—谷歌推出的端侧多模态AI模型的详细内容,更多请关注其它相关文章!

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站) 联系邮箱:rjfawu@163.com