DevOps研发效能
媒体矩阵
开源中国APP
加载中

Reachy 2 - 开源人形机器人
编辑推荐

Reachy 2 是首个专为开发具身 AI 和现实世界应用而设计的开源人形机器人。 作为一款开源、模块化、可编程的人形机器人,Reachy 2 具备高度灵活的双臂和头部,能够执行抓取、交互等多种...

更新于 2025/04/15
收藏 1

Qwen2.5-Omni - 端到端多模态大模型

Qwen2.5-Omni 是阿里通义千问开源的端到端多模态大模型,旨在感知各种模态,包括文本,图像,音频和视频,同时以流式方式生成文本和自然语音响应。 关键特点 Omni 和新颖的架构:我们提出...

更新于 2025/04/02
收藏 1

vision-simple - 基于 C++23 的跨平台视觉推理库
国内精选

vision-simple 是一个基于 C++23 的跨平台视觉推理库,旨在提供 开箱即用 的推理功能。通过 Docker用户可以快速搭建推理服务。 该库目前支持常见的 YOLO 系列(包括 Y...

收藏 1

AlexNet - 人工神经网络
编辑推荐

AlexNet 是一个人工神经网络,用于识别照片内容。它由当时的多伦多大学研究生 Alex Krizhevsky 和 Ilya Sutskever 以及他们的导师 Geoffrey Hinton...

更新于 2025/03/21
收藏 0

Megatron-VLM - 视觉语言模型训练框架

Megatron-VLM是为视觉语言模型(VLM)训练定制的高效框架。 特性 支持大规模分布式训练,显著提升训练效率 提供多种预训练模型支持,如BERT、GPT和T5 高效的内存优化技术,降低训练成本

收藏 0

GeneralistYOLO - 实时多任务视觉语言模型

GeneralistYOLO 是一个实时多任务视觉语言模型,一站式解决多种视觉任务。 特性 单模型支持目标检测、分割、图像描述等多任务 MS COCO数据集上目标检测AP达52.4%,实例分割A...

收藏 0

Stable Virtual Camera - 2D 照片转 3D 视频模型

Stable Virtual Camera 模型能够将 2D 图像转换为「沉浸式」视频,并呈出逼真的深度和视角。 Stable Virtual Camera 可以从一张或多张图像(最多可处理 3...

更新于 2025/03/20
收藏 0

OpenHomie - 人形机器人远程操控座舱
国内精选

OpenHomie 是人形机器人远程操控座舱,让复杂任务变得简单高效。 亮点特性 创新性地使用同构外骨骼驾驶舱,实现精准全身体操控 总成本仅0.5k美元,远低于传统动捕设备 支持多种人形机器人,...

收藏 1

VisionAgent - 视觉识别工具

VisionAgent 是一个库,可帮助你利用代理框架生成代码来解决视觉任务。 安装 pip install vision-agent export ANTHROPIC_API_KE...

更新于 2025/03/14
收藏 4
VisionAgent

olmOCR - 开源文档 OCR 工具
编辑推荐

olmOCR 是强大的开源文档 OCR 工具,专为高精度转换 PDF 和其他文档为纯文本而设计。该工具能完美保留文档原始阅读顺序,支持表格、公式、手写内容识别,特别适合处理学术论文和技术文档。 ...

收藏 6

vikit-learn - 轻量化计算机视觉套件
国内精选

Vikit-learn是一个使用Python开发的基于深度学习技术的计算机视觉处理工具包。 该软件包旨在提供一系列易于使用的工具,可以处理实际任务。 该项目仍在积极建设和开发中,敬请期待这部作品...

更新于 2025/01/03
收藏 4

Ocean - 增强现实应用开发 C++ 框架

Ocean 是 Facebook 内部用于计算机视觉 (CV) 和增强现实 (AR) 应用程序开发的开源 C++ 框架。 Ocean 主要使用 C++ 编写,且不依赖于特定平台,用于执行各种任务...

更新于 2024/07/12
收藏 3

CogVLM2 - 开源视觉语言模型
国内精选

CogVLM 是一个强大的开源视觉语言模型(VLM)。CogVLM-17B拥有100亿的视觉参数和70亿的语言参数,支持490*490分辨率的图像理解和多轮对话。 CogVLM-17B 17B在...

收藏 2

Humanoid-Gym - 人形机器人训练框架
国内精选

Humanoid-Gym 是开源人形机器人训练框架,旨在通过精心设计的奖励函数以及域随机化技术, 显著简化人形机器人的训练以及实现 sim-to-real 转换的难度,从而解决由于人形机器人结构...

更新于 2024/03/07
收藏 2

Zeroshot - 从文本描述中创建图像分类器

Zeroshot 是一款面向开发人员的开源工具,可从文本描述中创建图像分类器。利用文本的力量,在几分钟内为你的应用程序添加计算机视觉功能。 Zeroshot 是创建计算机视觉分类器的最简单方法。...

收藏 1
Zeroshot
开源软件作者
easyAiPro 作者
NocoBase 作者
Request for LessChat 作者

DiffBIR - 利用 Generative Diffusion Prior 实现模糊图像修复
国内精选

DiffBIR 可利用预训练的文本到图像扩散模型来解决模糊图像恢复问题。 框架采用 two-stage pipeline。在第一阶段,预训练跨多种退化的恢复模块,以提高现实场景中的泛化能力。第二...

收藏 5
DiffBIR

CoDeF - 强时序一致性视频处理算法
国内精选

CoDeF 是能够高度保持视频时序一致性的的视频处理算法,可以轻松完成视频风格迁移、视频关键点追踪(包括流体)、用户自定义的视频内容编辑等任务。 CoDeF 支持将图像风格化算法升级为视频风格化...

更新于 2023/10/07
收藏 9

Towhee - 开源 embedding 框架
编辑推荐

Towhee 是一个开源的 embedding 框架,包含丰富的数据处理算法与神经网络模型。通过 Towhee,能够轻松地处理非结构化数据(如图片、视频、音频、长文本等),完成原始数据到向量的转...

收藏 5

GMPI - 多平面图像生成框架

GMPI (Generative Multiplane Images)是一个多平面图像生成框架,使 2D GAN 具有 3D 感知能力。 生成的输出称为“生成多平面图像”(GMPI),并强调其渲...

收藏 3

FaceLit - 3D 人脸生成框架

生成框架 FaceLit 能够生成可以在各种用户定义的光照条件和视图下呈现的 3D 人脸,完全从 2D 图像中学习,无需任何手动注释。 模型学习生成面部的形状和材料属性,以便在根据姿势和照明的自...

收藏 3

没有更多内容

加载失败,请刷新页面

返回顶部
顶部