智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题-新科技-资讯-头部财经

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

资讯 » 新科技 2024-07-12

7 月 12 日消息，智谱 AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。

据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。

▲ 官方效果演示

智谱 AI提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2-Video 模型。

智谱 AI 表示，CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能，还在视频字幕生成和时间定位方面表现出色。

附相关链接：

代码：https://github.com/THUDM/CogVLM2 项目网站：https://cogvlm2-video.github.io 在线试用：http://36.103.203.44:7868/

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

别人家的食堂：中西餐、水果、饮料应有尽有，这就是马云的福利

2024-07-131阅读
从IDC到云再到智算中心，苏州IDC服务商决胜算力新时代

2024-07-131阅读
少赚10800亿！日本首富孙正义终于认错，被这个华人大佬逼下神坛

2024-07-131阅读
国地科技创业板IPO被终止：年营收6.4亿曾拟募资6亿

2024-07-131阅读
鸿蒙智行“神助攻”，“充电”成蔚来扭亏为盈的新希望？

2024-07-131阅读
荣耀CEO赵明：揭秘Magic V3背后的创新与差异化策略

2024-07-131阅读
七彩虹展出iGame RTX AI PC体验区：本地AI算力远超普通PC

2024-07-131阅读
打破南北壁垒，顺丰在内蒙古草原布了一个局

2024-07-131阅读
万兴科技旗下亿图脑图获华为“智慧办公最佳产品合作伙伴”奖

2024-07-131阅读
引领行业变革，雅迪四大实用科技全球首发

2024-07-131阅读