计算机视觉 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签计算机视觉

#计算机视觉

1.2MB超轻量模型实现草莓苗精准分级检测与定位，准确率超96%

CoovallyAIHub 7小时前2025-11-10 09:40:17

在现代化的草莓育苗工厂中，一排排整齐的穴盘里孕育着成千上万的草莓幼苗。然而，一个长期困扰农户的难题是：如何快速准确地识别出哪些穴孔缺苗、哪些幼苗生长不良？

1000

终结AI偏见！Sony AI发布Nature论文与FHIBE数据集，重塑公平性评估基准

CoovallyAIHub 7小时前2025-11-10 09:18:01

近年来，人工智能（尤其是计算机视觉）技术快速发展，广泛应用于安防、金融、医疗、自动驾驶等领域。然而，数据偏见问题一直如影随形，制约着AI系统的公平性与可信度。

2800

从 SmartMediaKit 设计探讨音视频工程师的面试与能力评估框架

音视频牛哥 3天前2025-11-07 07:18:22

大牛直播SDK（SmartMediaKit）是一套跨平台实时音视频系统级 SDK，定位于低延迟直播、智能视频传输与系统级集成。SDK 以模块化体系构建，覆盖推流...

10110

突破360°跟踪极限！OmniTrack++：全景MOT新范式，HOTA指标狂飙43%

CoovallyAIHub 4天前2025-11-06 16:40:37

研究团队已承诺将开源代码和数据集，这将极大促进全景多目标跟踪领域的发展。对于从事计算机视觉、机器人导航、自动驾驶等领域的研究者和工程师来说，OmniTrack+...

10010

OCR战场再起风云：LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍？（附演示开源地址）

CoovallyAIHub 5天前2025-11-05 16:55:06

就在前不久DeepSeekOCR开源发布，大家在感叹其体积和速度的时候，LightOnOCR又给我们带来全新的效果，这款全新的视觉语言模型正在重新定义机器阅读和...

6810

新型AI工具可检测无面部深度伪造视频

用户11764306 5天前2025-11-05 11:19:21

研究人员在2025年纳什维尔计算机视觉与模式识别会议（CVPR）上展示了他们的发现。由Kundu领导的论文《走向通用合成视频检测器：从面部或背景操作到完全AI生...

10310

告别碎片化！Dinomaly2：一个极简框架统一所有异常检测任务

CoovallyAIHub 5天前2025-11-05 09:18:08

在工业质检、医疗诊断、安防监控等领域，异常检测一直扮演着至关重要的角色。然而，这个领域长期以来面临着一个核心痛点：方法碎片化。

13810

当视觉语言模型接收到相互矛盾的信息时，它会相信哪个信号？

CoovallyAIHub 5天前2025-11-05 08:42:11

近年来，视觉语言模型（VLMs）在多种任务上展现出了令人印象深刻的能力，它们能够同时理解图像和文本信息，完成复杂的推理任务。然而，当图像和文本信息相互矛盾时，这...

8510

Cursor 2.0 太离谱了！8 个 AI 同时写代码，还能自己测！

CoovallyAIHub 5天前2025-11-04 17:38:36

这次发布时间也太巧了——就在几天前，Claude Code 才刚刚发布它的 2.0 版本。

1.5K10

SmartMediaKit：如何让智能系统早人一步“跟上现实”的时间架构--从实时流媒体到系统智能的演进

音视频牛哥 7天前2025-11-03 13:19:43

智能的本质，从来不仅是“知道”，而是“反应”。在人与机器逐渐共享时空的时代，AI的挑战不再是能否理解世界，而是能否与世界同频。

13510

SmartMediakit的RTMP推流全景解析：低延迟、跨平台与系统协同

音视频牛哥 7天前2025-11-03 11:42:21

实时音视频系统，正从“能看见”走向“能协同”。随着 4G/5G、Wi-Fi 6/7、边缘计算、物联网、低空经济、智能车载、XR / 头显等新型场景不断涌现，视频...

16110

视觉语言模型（VLM）深度解析：如何用它来处理文档？

CoovallyAIHub 7天前2025-11-03 09:59:09

视觉语言模型是一类强大的机器学习模型，能够同时处理视觉（图像）和文本信息。随着最近 Qwen 3 VL 模型的发布，我想带大家深入探讨一下，如何利用这些强大的 ...

18510

估值百亿独角兽创始人硕士论文曝光！宇树科技王兴兴的“性价比”思维10年前就已注定

CoovallyAIHub 7天前2025-11-03 09:28:05

“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。

8710

SmartMediaKit：从实时通信到系统协同的十五五工程蓝图

音视频牛哥 7天前2025-11-02 20:46:51

“十五五”（2026–2030）时期，将是中国由“智能化应用突破”转向“系统化协同演进”的关键阶段。随着低空经济、具身智能、工业视觉、远程医疗、应急指挥等新...

12610

无标注数据预测人脸识别模型偏差方法

用户11764306 8天前2025-11-02 09:54:22

在今年欧洲计算机视觉会议(ECCV)上，我们提出了一种评估人脸识别系统偏差的新方法，不需要带有身份注释的数据。虽然该方法仅估计模型在不同人口群体数据上的性能，但...

9510

深度学习定位与目标检测技术解析

用户11764306 8天前2025-11-01 18:22:59

定位与目标检测是计算机视觉中的两个核心任务，广泛应用于自动驾驶和机器人等实际场景。作为计算机视觉专家，深入理解这些技术至关重要。

5710

单目深度估计技术解析与实现

用户11764306 9天前2025-11-01 07:19:40

Depth Anything模型基于DPT架构，并在超过6200万张图像上进行了训练。DPT模型的主干利用视觉变换器替代CNN进行密集预测任务，即逐像素预测。D...

8810

#计算机视觉

1.2MB超轻量模型实现草莓苗精准分级检测与定位，准确率超96%

终结AI偏见！Sony AI发布Nature论文与FHIBE数据集，重塑公平性评估基准

从 SmartMediaKit 设计探讨音视频工程师的面试与能力评估框架

突破360°跟踪极限！OmniTrack++：全景MOT新范式，HOTA指标狂飙43%

OCR战场再起风云：LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍？（附演示开源地址）

新型AI工具可检测无面部深度伪造视频

告别碎片化！Dinomaly2：一个极简框架统一所有异常检测任务

当视觉语言模型接收到相互矛盾的信息时，它会相信哪个信号？

Cursor 2.0 太离谱了！8 个 AI 同时写代码，还能自己测！

SmartMediaKit：如何让智能系统早人一步“跟上现实”的时间架构--从实时流媒体到系统智能的演进

SmartMediakit的RTMP推流全景解析：低延迟、跨平台与系统协同

视觉语言模型（VLM）深度解析：如何用它来处理文档？

估值百亿独角兽创始人硕士论文曝光！宇树科技王兴兴的“性价比”思维10年前就已注定

SmartMediaKit：从实时通信到系统协同的十五五工程蓝图

无标注数据预测人脸识别模型偏差方法

深度学习定位与目标检测技术解析

单目深度估计技术解析与实现

热门专栏

TEG云端专业号的专栏

AI科技大本营的专栏

量子位

数据派THU

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐