OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理

40年前，个人电脑的问世将强大的计算能力压缩至人们的桌面。20年前，智能手机的诞生拉近了人与人之间的距离。今天，AI助手悄无声息地渗透到我们的生活，改变着我们与世界互动的方式。

在上周刚刚落幕的OpenVINO™ DevCon 中国系列工作坊北京站活动上，众多行业先锋和创新者们展现了AI技术在多个领域的实际应用。一个明显的趋势是：无论是行业领军企业还是独立开发者，无一不在全力以赴地“All In AI”。这些创新的解决方案，不仅标志着当前各行业对AI的应用正进入爆发式增长阶段，也预示着AI将与我们的生活更紧密地联系在一起——从职场到家庭，从医疗到娱乐，开启一个充满可能性的未来。

OpenVINO™ 2024.4版上线，支持最新英特尔® 酷睿™ Ultra处理器（第二代）并显著提升大语言模型推理性能

英特尔OpenVINO™，作为一款先进的AI工具套件，为开发者们提供了实现理想的AI部署的平台。英特尔不断优化其性能，特别是提升其在PC和小型设备上运行大语言模型（LLM）的能力。最新发布的OpenVINO™ 2024.4版本，为开发者带来了诸多关键功能和性能改进，旨在确保大语言模型在所有场景中，无论是边缘计算还是数据中心，都能实现卓越的AI性能。

首先，OpenVINO™ 2024.4版本的一大亮点是新增了对最新英特尔® 酷睿™ Ultra处理器（第二代）的支持：

·在客户端技术方面，支持全新的Xe2 GPU架构，该架构搭载于最新发布的英特尔® 酷睿™ Ultra处理器（第二代）平台，并由英特尔® Xe矩阵扩展（英特尔® XMX）加速技术驱动。Xe2架构在处理计算密集型任务，例如矩阵乘法方面，能够带来显著的性能提升，对于加速大语言模型的部署至关重要。

·英特尔® 酷睿™ Ultra处理器（第二代）还引入了一个更强大的神经处理单元（NPU），其推理吞吐量相较前一代有重大升级。

在模型优化和内存管理方面，OpenVINO™ 2024.4版本有效降低了AI部署的成本，优化了内存使用，并显著减少了延迟。

·创建了高度优化的GPU原语，如缩放点积注意力和旋转位置嵌入，有效降低执行复杂AI操作的成本。此外，对内存管理进行了改进，更高效地支持带有压缩权重的模型，使得大语言模型能够在资源受限的环境中，如笔记本电脑和边缘设备上，能够以最小的内存占用运行。

·在英特尔® 至强® 处理器上运行时，OpenVINO™ 现支持由Open Compute Project规范定义的mxfp4格式，这使在运行大语言模型时，相比于BF16精度，能够减少内存消耗，同时提高处理第二个Token的延迟性能。

在模型支持方面，OpenVINO™ 2024.4覆盖更多生成式AI。

·支持GLM-4-9B Chat, MiniCPM-1B, Llama 3 和 3.1, Phi-3-Mini, Phi-3-Medium 以及YOLOX-s模型，并新增了一系列值得关注的Notebook。

·与Hugging Face合作，更新了Optimum-Intel解决方案，使得在利用Hugging Face API运行模型的同时，能够使用OpenVINO™高效地导出和压缩模型，以供OpenVINO™ GenAI套件API使用。

OpenVINO™ DevCon尽显社区创新活力，背包里的AI PC定义智能新纪元

今年，OpenVINO™ 发布了多个更新版本，且持续通过与开发者的交流和互动，将行业趋势与OpenVINO™ 的最新技术带给开发者，助力开发者系统进阶。在近日举办的OpenVINO™ DevCon中国系列工作坊北京站中，数百位开发者亲临现场，探讨了“OpenVINO™ 加速PC及小型设备性能”的应用潜力，并展示了他们在语音智能交互、媒体娱乐、医疗分析等领域利用OpenVINO™实现的创新成果。

·人形机器人展示：将大模型“装进”AI PC，小巧机身浓缩超级智慧

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理-第1张-信息-51硕博论文

在机器人领域，一个核心挑战在于：如何将复杂的AI大模型部署到资源受限的本地硬件，赋予机器人以智慧的“生命”。这一挑战犹如将一头大象塞进狭小的冰箱，不仅考验技术的高度，更要求在成本和性能之间寻找到最优的解决方案。

OpenVINO™ 通过模型的量化、压缩和加速，降低了AI大模型在边缘设备上的运行负担，并通过支持多硬件平台，实现了计算资源的高效利用，使在AI PC轻薄笔记本上运行大型模型成为可能。当这些AI大模型与机器人、机械臂等硬件结合，它们就仿佛被赋予了生命，能够听懂人类的复杂指令，机智应对各种挑战，展现着智能机器人的无限潜力。

·对话式AI语音助手：聊天只是开胃菜，超级助理才是真身份

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理-第2张-信息-51硕博论文

对话式AI语音助手已经在我们的日常生活中扮演越来越重要的角色。事实上，随着智能化程度不断加深，这些AI助手正走进医疗、教育、金融等多个领域，为各行各业的带来效率提升。

例如，在医院场景中，患者通常需要在候诊室等待数小时，而医生则被迫在几分钟内完成诊断。如何优化就诊流程，成为了缓解医患矛盾的关键。基于OpenVINO™ 搭建的大语言模型对话式AI助手，能够帮助医院改善这一状况。AI语音助手通过语音识别和大型语言模型，在患者踏入诊室之前就能与患者展开交流，收集其症状信息，并为医生制作详细的病例总结。如此，当患者进入诊室，医生便能够直接进入诊断的核心环节，极大地缩短了就诊时间，提升了患者满意度。

·与直播息息相关：AI化身美颜大师，数字人与未来共舞

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理-第3张-信息-51硕博论文

在视频直播盛行的今天，智能美颜和数字人技术已成为行业的标配。但如何降低相关技术的开发门槛和成本仍是行业持续探索的议题。如今借助英特尔OpenVINO™，相芯科技让AI数字人和AR视频特效技术实现了更低成本的部署。

例如，在视频互动中，OpenVINO™ 极致的优化能力结合相芯在AI美颜方面的多年积累，在AR视频特效方面实现了出色的效果。AI在美颜时不仅能准确识别和修饰面部的细微瑕疵，如雀斑、痘痘，还能巧妙保留用户的个人特色，确保美颜效果既真实自然又富有个性魅力。

依托OpenVINO™ 构建的AI数字人产品，也正被广泛应用于在线教育、远程办公、直播带货、社交娱乐等多个领域。OpenVINO™ 通过优化的开发框架，提高了模型的转换速度和压缩率，不仅降低了资源消耗和成本门槛，还确保了模型在不同硬件平台上高效运行。从教育启迪到娱乐陪伴，从工作辅助到情感交流，数字人应用的深度和影响力不断加深。

当AI 走进日常生活：减负、传承…指尖智慧缔造美好生活

OpenVINO™ 不仅推动着行业AI应用的发展，更为众多独立开发者提供了施展才华和创意的平台。从技术博主到怀揣梦想的学生和创业者，他们利用AI技术，探索如何让科技服务于人，真正改善人类生活的世界。

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理-第4张-信息-51硕博论文

·把授课交给老师，批改作业交给机器：长久以来，学校教师肩负着作业批改的繁重负担。一款基于OpenVINO™ 构建并优化的离线作业批改应用帮助教师缓解了这一难题。只需将题目输入到笔记本电脑，AI大模型便能将学生答案与标准答案自动进行比对，完成作业批改。结合打印机，批改结果便能即时呈现在学生试卷之上。每分钟超过60份试卷的批改速度，批改准确率超过95%，让教师彻底从繁重的体力劳动中解放出来，大大提高了教育工作的效率。

·利用OpenVINO™，跨过批量剪辑视频之“痛”：在数字营销的战役中，出街速度至关重要。北京海百川有限公司开发的AIGC数字内容生成结合全息硬件展示系统能够轻松处理复杂任务，从视频生成、虚拟互动到与大型AI模型的集成，使得在视觉识别、面部表情和身体动作的捕捉上都能生成引人入胜的数字内容。通过高性能的AI推理引擎，系统能够自动捕捉热点，制作出适应不同语言和文化环境的视频内容，达到批量生产视频的效果，满足市场的多样化需求和对速度的追求。

·传统针灸“智慧”传承，AI技术功不可没：针灸作为一种传统的中医疗法，其操作依赖于针灸师手工进行。随着城市化和人口老龄化带来对针灸服务的需求的上升，现有的针灸师队伍难以满足庞大的市场需求。上海墀圣信息科技有限责任公司借助英特尔的OpenVINO™ 开发的谧行针灸系统方案，通过智能化手段，不仅能够快速准确地识别人体穴位，还通过量化针灸手法，实现了治疗操作的标准化，提高了治疗的效率和准确性。此外，庞大的针灸知识数据库，还为针灸咨询、学习与考核提供了支持，加速了针灸知识的普及与传播。

随着OpenVINO™ 2024.4版本的发布，工程师将可以利用更多的性能加速创新。英特尔将继续与全球开发者一起，探索AI的未知领域，让每一个创意都能成为现实。

免责声明：本文章由会员“极目新闻”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代） 优化大语言模型推理

相关推荐

OpenVINO™ 2024.4版上线：支持英特尔® 酷睿™ Ultra处理器（第二代）优化大语言模型推理