阿里QVQ-Max来了！超绝视觉推理模型，会看网课学编程，免费可用-新科技-资讯-头部财经

阿里QVQ-Max来了！超绝视觉推理模型，会看网课学编程，免费可用

资讯 » 新科技 2025-03-30

（公众号：zhidxcom）

作者| 程茜

编辑| 心缘

3月28日报道，阿里大模型表情包军团再添猛将！今日凌晨，大模型“劳模”阿里云通义团队发布其首款视觉推理模型QVQ-Max。

在数学问题、生活常识、编程代码、艺术创作等场景，该模型可以看懂图片和视频里的内容，还能结合这些信息进行分析、推理，并给出解决方案。

例如，QVQ-Max可以协助用户在工作中完成数据分析、信息整理、编程写代码等任务，帮助学生解答配有图表的数学、物理等科目的难题，并通过直观的方式讲解复杂概念，在生活中根据衣柜照片推荐穿搭方案、基于食谱图片指导用户烹饪。

用户只需上传任何图像或视频然后提出问题，点击 “思考 ”按钮，即可查看它如何逐步处理视觉信息。

多模态数学问题的数据集MathVision可以用来评估模型解决复杂数学问题的能力，研究人员发现，模型思考的token数越长，其MathVision的准确度就会越高。

博客中提到，他们设计QVQ-Max的目标，就是让它成为一个既“眼尖”又“脑快”的助手，帮助用户解决各种实际问题。

体验地址：https://chat.qwen.ai/一、秀多图识别、数学推理、看视频学习编程技能

阿里通义团队在博客中放出了几个新鲜的QVQ-Max演示案例。

首先是多图识别，QVQ-Max可以描述图片中的景色，并且通过分析图片信息找到这两张图片的相关之处。

其次是数学推理，这道难题需要模型从图片中找问题和答案，QVQ-Max通过分析其余8个数字之间的关系，得出了最后一格的数字应该是10的正确答案。

第三个是让QVQ-Max看手相，感情线、生命线、事业线分析得头头是道。

第四个考验了模型的视频理解能力，演示中模型对一个简笔画的蜗牛视频进行了分析，然后为这条视频创建了贴合的字幕。

最后一个是让QVQ-Max看视频自学编程，在观看了一个类似贪吃蛇的小游戏视频后，QVQ-Max很快就复刻了一个类似游戏，给出了完整的代码。

二、观察细致入微、深入分析，还能灵活创作

QVQ-Max的能力可以总结为三个方面：细致观察、深入推理和灵活应用。

细致观察方面，QVQ-Max能快速识别出复杂图表、日常随手拍照片中的关键元素，例如它可以找到图片中有哪些物品、有什么文字标识等。

深入推理就是让模型基于看到的内容进行分析，然后结合背景知识得出结论。例如，在一道几何题中，它可以根据题目附带的图形推导出答案；在一段视频里，它能根据画面内容推测出接下来可能发生的情节。

除了分析和推理，QVQ-Max还可以灵活应用这些能力进行创作，例如帮助用户设计插画、生成短视频脚本、创作角色扮演的内容，或者化身评论家、占卜师。

这使得其在用户工作、学习、生活中的应用场景增多。

一般而言，大模型在回答问题、写文章、生成代码时主要依赖文字输入。

但现实生活中，很多信息并不只是用文字表达，而是图片、图表、视频、文字交互出现，并且图片中包含的信息会比文字更直观、更复杂，如其中的颜色、形状、位置关系等。例如用户分析建筑图纸时，仅靠文字描述是无法判断其合理性的，需要结合图纸以及专业知识分析，这也是阿里通用团队研究视觉推理模型的原因。

结语：视觉推理模型的演进方向：更准确观察、视觉Agent、交互多元

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

宝马携超30款车型亮相上海车展新世代驾趣概念车全球首发

2025-03-3140阅读
太极集团业绩崩盘，新董事长俞敏上任不足半年

2025-03-3140阅读
新董事长杨秀明年度业绩首秀，重庆银行“增量不增质”？

2025-03-3140阅读
新奥能源拟私有化，现有股东如何获利？

2025-03-3140阅读
联想集团2025/26财年誓师大会顺利举行

2025-03-3140阅读
谷歌计划将Gemini引入Chrome浏览器侧边栏

2025-03-3140阅读
科技巨头与航天企业因卫星频谱资源展开法律争夺战

2025-03-3140阅读
日料品类发展报告2025：品类持续回暖，细分赛道显现新潜力

2025-03-3140阅读
KTC 5K 双模果粉屏显示器 H27P3 发布，3599 元

2025-03-3140阅读
高通小至尊版芯片！REDMI首发骁龙8s Gen4

2025-03-3140阅读