首页
学习
活动
专区
圈层
工具
发布
首页标签计算机视觉

#计算机视觉

1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%

CoovallyAIHub

在现代化的草莓育苗工厂中,一排排整齐的穴盘里孕育着成千上万的草莓幼苗。然而,一个长期困扰农户的难题是:如何快速准确地识别出哪些穴孔缺苗、哪些幼苗生长不良?

1000

终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准

CoovallyAIHub

近年来,人工智能(尤其是计算机视觉)技术快速发展,广泛应用于安防、金融、医疗、自动驾驶等领域。然而,数据偏见问题一直如影随形,制约着AI系统的公平性与可信度。

2800

从 SmartMediaKit 设计探讨音视频工程师的面试与能力评估框架

音视频牛哥

大牛直播SDK(SmartMediaKit)是一套跨平台实时音视频系统级 SDK,定位于低延迟直播、智能视频传输与系统级集成。SDK 以模块化体系构建,覆盖推流...

10110

突破360°跟踪极限!OmniTrack++:全景MOT新范式,HOTA指标狂飙43%

CoovallyAIHub

研究团队已承诺将开源代码和数据集,这将极大促进全景多目标跟踪领域的发展。对于从事计算机视觉、机器人导航、自动驾驶等领域的研究者和工程师来说,OmniTrack+...

10010

OCR战场再起风云:LightOnOCR-1B凭什么比DeepSeekOCR快1.7倍?(附演示开源地址)

CoovallyAIHub

就在前不久DeepSeekOCR开源发布,大家在感叹其体积和速度的时候,LightOnOCR又给我们带来全新的效果,这款全新的视觉语言模型正在重新定义机器阅读和...

6810

新型AI工具可检测无面部深度伪造视频

用户11764306

研究人员在2025年纳什维尔计算机视觉与模式识别会议(CVPR)上展示了他们的发现。由Kundu领导的论文《走向通用合成视频检测器:从面部或背景操作到完全AI生...

10310

告别碎片化!Dinomaly2:一个极简框架统一所有异常检测任务

CoovallyAIHub

在工业质检、医疗诊断、安防监控等领域,异常检测一直扮演着至关重要的角色。然而,这个领域长期以来面临着一个核心痛点:方法碎片化。

13810

当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?

CoovallyAIHub

近年来,视觉语言模型(VLMs)在多种任务上展现出了令人印象深刻的能力,它们能够同时理解图像和文本信息,完成复杂的推理任务。然而,当图像和文本信息相互矛盾时,这...

8510

Cursor 2.0 太离谱了!8 个 AI 同时写代码,还能自己测!

CoovallyAIHub

这次发布时间也太巧了——就在几天前,Claude Code 才刚刚发布它的 2.0 版本。

1.5K10

SmartMediaKit:如何让智能系统早人一步“跟上现实”的时间架构--从实时流媒体到系统智能的演进

音视频牛哥

智能的本质,从来不仅是“知道”,而是“反应”。在人与机器逐渐共享时空的时代,AI的挑战不再是能否理解世界,而是能否与世界同频。

13510

SmartMediakit的RTMP推流全景解析:低延迟、跨平台与系统协同

音视频牛哥

实时音视频系统,正从“能看见”走向“能协同”。随着 4G/5G、Wi-Fi 6/7、边缘计算、物联网、低空经济、智能车载、XR / 头显等新型场景不断涌现,视频...

16110

视觉语言模型(VLM)深度解析:如何用它来处理文档?

CoovallyAIHub

视觉语言模型是一类强大的机器学习模型,能够同时处理视觉(图像)和文本信息。随着最近 Qwen 3 VL 模型的发布,我想带大家深入探讨一下,如何利用这些强大的 ...

18510

估值百亿独角兽创始人硕士论文曝光!宇树科技王兴兴的“性价比”思维10年前就已注定

CoovallyAIHub

“人火了是连毕业论文都要被翻出来的。”这条互联网定律再次应验——宇树科技CEO王兴兴的硕士毕业论文近日被网友们掘地三尺找了出来。

8710

SmartMediaKit:从实时通信到系统协同的十五五工程蓝图

音视频牛哥

“十五五”(2026–2030)时期,将是中国由“智能化应用突破”转向“系统化协同演进”的关键阶段。 随着低空经济、具身智能、工业视觉、远程医疗、应急指挥等新...

12610

无标注数据预测人脸识别模型偏差方法

用户11764306

在今年欧洲计算机视觉会议(ECCV)上,我们提出了一种评估人脸识别系统偏差的新方法,不需要带有身份注释的数据。虽然该方法仅估计模型在不同人口群体数据上的性能,但...

9510

深度学习定位与目标检测技术解析

用户11764306

定位与目标检测是计算机视觉中的两个核心任务,广泛应用于自动驾驶和机器人等实际场景。作为计算机视觉专家,深入理解这些技术至关重要。

5710

单目深度估计技术解析与实现

用户11764306

Depth Anything模型基于DPT架构,并在超过6200万张图像上进行了训练。DPT模型的主干利用视觉变换器替代CNN进行密集预测任务,即逐像素预测。D...

8810
领券