加载中

Humanoid-Gym - 人形机器人训练框架

Humanoid-Gym 是开源人形机器人训练框架,旨在通过精心设计的奖励函数以及域随机化技术, 显著简化人形机器人的训练以及实现 sim-to-real 转换的难度,从而解决由于人形机器人结构...

收藏 1
更新于 2024/03/07

Zeroshot - 从文本描述中创建图像分类器

Zeroshot 是一款面向开发人员的开源工具,可从文本描述中创建图像分类器。利用文本的力量,在几分钟内为你的应用程序添加计算机视觉功能。 Zeroshot 是创建计算机视觉分类器的最简单方法。...

收藏 1
Zeroshot

DiffBIR - 利用 Generative Diffusion Prior 实现模糊图像修复

DiffBIR 可利用预训练的文本到图像扩散模型来解决模糊图像恢复问题。 框架采用 two-stage pipeline。在第一阶段,预训练跨多种退化的恢复模块,以提高现实场景中的泛化能力。第二...

收藏 5
DiffBIR

CoDeF - 强时序一致性视频处理算法

CoDeF 是能够高度保持视频时序一致性的的视频处理算法,可以轻松完成视频风格迁移、视频关键点追踪(包括流体)、用户自定义的视频内容编辑等任务。 CoDeF 支持将图像风格化算法升级为视频风格化...

收藏 9
更新于 2023/10/07

Towhee - 开源 embedding 框架

Towhee 是一个开源的 embedding 框架,包含丰富的数据处理算法与神经网络模型。通过 Towhee,能够轻松地处理非结构化数据(如图片、视频、音频、长文本等),完成原始数据到向量的转...

收藏 5

GMPI - 多平面图像生成框架

GMPI (Generative Multiplane Images)是一个多平面图像生成框架,使 2D GAN 具有 3D 感知能力。 生成的输出称为“生成多平面图像”(GMPI),并强调其渲...

收藏 3

FaceLit - 3D 人脸生成框架

生成框架 FaceLit 能够生成可以在各种用户定义的光照条件和视图下呈现的 3D 人脸,完全从 2D 图像中学习,无需任何手动注释。 模型学习生成面部的形状和材料属性,以便在根据姿势和照明的自...

收藏 3

ARKitScenes - 使用 RGB-D 数据理解 3D 室内场景

ARKitScenes 是一个多样化的真实世界数据集,用于使用移动 RGB-D 数据理解 3D 室内场景。 ARKitScenes 不仅是第一个使用现在广泛使用的深度传感器捕获的 RGB-D 数...

收藏 1

CVNets - 计算机视觉网络训练库

CVNets 是一个计算机视觉工具包,它允许研究人员和工程师为各种任务训练标准和移动/非移动计算机视觉模型,包括对象分类、对象检测、语义分割和基础模型(例如,CLIP)。 安装 建议使用 Pyt...

收藏 1

InternGPT - 视觉交互系统

InternGPT(简称 iGPT) / InternChat(简称 iChat) 是一种基于指向语言驱动的视觉交互系统,允许你使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。 I...

收藏 2
InternGPT

Shap-E - 图文转 3D 模型

Shap-E 是 OpenAI 推出的一个用于 3D 资产的条件生成模型。与最近关于三维生成模型的工作不同的是,Shap-E 直接生成隐式函数的参数,这些参数可以被渲染成纹理网格和神经辐射场。 ...

收藏 3

SdPaint - Stable Diffusion 画图工具

SdPaint 是一个简单的 Stable Diffusion 画图 python 脚本,用户可在画布上作画,并将该图像的每个笔画发送到 automatic1111 API ,且在生成图像时更新...

收藏 3

MiniGPT-4 - 使用 LLM 增强视觉语言理解

MiniGPT-4 可使用高级大型语言模型增强视觉语言理解。 MiniGPT-4 仅使用一个投影层将来自 BLIP-2 的冻结视觉编码器与冻结 LLM Vicuna 对齐。MiniGPT-4 的...

收藏 21

Magic Copy - 从图像中直接复制前景对象

Magic Copy 是一个 Chrome 扩展,可从图像中提取前景对象并将其复制到剪贴板,基于 Meta 的 Segment Anything Model 该扩展还不可用,因为仍在审查中。可以...

收藏 12
更新于 2023/04/15

VideoCrafter - 视频生成和编辑工具箱

VideoCrafter 是一个用于制作视频内容的开源视频生成和编辑工具箱。 目前包括以下三种型号: Base T2V:通用文本到视频生成 提供基于潜在视频扩散模型 (LVDM) 的基本文本到视...

收藏 6
开源软件作者
u100 作者
KKPlayer 作者
fossilbook-cn 作者

Mochi Diffusion - Mac 上原生运行 Stable Diffusion

Mochi Diffusion 可在 Mac 上原生运行 Stable Diffusion,本应用内置 Apple 的 Core ML Stable Diffusion 框架 ,以实现在搭载 A...

收藏 21
更新于 2023/04/12
Mochi Diffusion

Segment Anything - 图像分割模型

Segment Anything Model(SAM)从输入提示中产生高质量的物体遮罩,它可以用来为图像中的所有物体产生遮罩。它已经在一个由 1100 万张图像和 11 亿个遮罩组成的数据集上进...

收藏 5
更新于 2023/04/06

MindPose - 姿态估计工具箱

MindPose 是一个开源的基于 MindSpore 的姿态估计工具箱。它收集了一系列经典和 SoTA 视觉模型,例如 HRNet,以及它们的预训练权重和训练策略。 主要特点 便于使用。Min...

收藏 5
更新于 2023/04/02

OpenFlamingo - 大型 LMM 训练框架

OpenFlamingo 的核心是一个支持大型多模态模型 (LMM) 训练和评估的框架,DeepMind 的 Flamingo 模型的开源复制品。 主要包含如下内容: 一个用于训练 Flamin...

收藏 6
更新于 2023/03/30

MindFace - 人脸识别和检测模型工具包

MindFace是一款基于 MindSpore 的开源工具包,包含最先进的人脸识别和检测模型,如ArcFace、RetinaFace和其他模型,主要用于面部识别和检测等常见应用场景。 MindF...

收藏 3

没有更多内容

加载失败,请刷新页面

返回顶部
顶部