软件简介

Pythia 是 Facebook 人工智能研究(Facebook AI Research,FAIR)的视觉问答研究模块化框架,它建立在 PyTorch 之上。

特性:

  • Model Zoo:最先进的视觉和语言模型的参考实现,包括 LoRRA(SoQ on VQA 和 TextVQA)、Pythia 模型(VQA 2018 挑战获胜者)和 BAN。
  • Multi-Tasking:支持多任务,允许同时训练多个数据集。
  • Datasets:包括对内置的各种数据集的支持,包括 VQA、VizWiz、TextVQA 和 VisualDialog。
  • Modules:为视觉和语言领域中的许多常用图层提供实现
  • Distributed:支持基于 DataParallel 和 DistributedDataParallel 的分布式培训。
  • Unopinionated:对于基于它构建的数据集和模型实现不受影响。
  • Customization:可自定义损失、指标、调度、优化器、张量板等等

Pythia 还可以作为视觉和语言数据集挑战的入门代码库(TextVQA 挑战、VQA 挑战)。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
05/21 22:01

Facobook开源视觉问答VQA框架:Pythia

VQA Challenge 2018的冠军方案。 (欢迎关注“我爱计算机视觉”,一个有价值有深度的公众号~) 什么是视觉问答VQA(Visual Question Answering)? 给定一幅图片及与图片相关的问题,系统通过理解图片回答这个问题,...

0
0
发表了博客
2019/05/31 00:07

Pythia:Facebook最新开源的视觉、语言多任务学习框架

Facebook 发布了一个全新的多任务学习框架 Pythia,它基于 PyTorch 且可用于视觉和语言的联合任务。Pythia 是一种模块化的即插即用框架,数据科学家和机器学习开发者能快速构建、复现和构建基准模型。 项目地址:https://github.com/facebookresearch/pythia Pythia 是个啥? Pythia 是一个深度学习框架,它支持视觉和语...

0
0
2019/10/24 22:42

DeepMind和牛津联合打造古文修复AI,2500年前残破碑文一眼补齐

作者|夏草 来源|新智元 研究人员表明,深度学习可以帮助专家学者恢复古希腊碑文文字。由牛津大学和DeepMind的研究人员共同打造的AI工具Pythia,可以通过训练神经网络来猜测古希腊碑文中缺少的单词或字符。 这些文...

0
0
03/19 07:03

重磅推荐!日立开源语义分割数据集标注工具Semantic Segmentation Editor

面向自动驾驶领域的2D图片与3D点云对象标注工具。 (欢迎关注本站的“我爱计算机视觉”微信公众号,一个有价值有深度的公众号~) 日立汽车工业实验室(Hitachi Automotive And Industry Lab)刚刚开源了基于Web的语...

0
0
02/23 17:41

重磅推荐!日立开源语义分割数据集标注工具Semantic Segmentation Editor

面向自动驾驶领域的2D图片与3D点云对象标注工具。 (欢迎关注本站的“我爱计算机视觉”微信公众号,一个有价值有深度的公众号~) 日立汽车工业实验室(Hitachi Automotive And Industry Lab)刚刚开源了基于Web的语...

0
0
10/23 12:56

破译「罗塞塔石碑」要几十年?华裔MIT博士开发新系统,快速解密「死语言」

新智元报道 来源:MIT 编辑:小匀 【新智元导读】丧失古老的语言不仅是学术界的损失,也是全人类文明的损失。MIT新开发的系统旨在帮助语言学家解读已被遗忘的「死语言」。 要说大英博物馆里最出名的文物,罗塞塔石...

0
0
10/23 13:51

破译「罗塞塔石碑」要几十年?华裔MIT博士开发新系统,快速解密「死语言」

新智元报道 来源:MIT 编辑:小匀 【新智元导读】丧失古老的语言不仅是学术界的损失,也是全人类文明的损失。MIT新开发的系统旨在帮助语言学家解读已被遗忘的「死语言」。 要说大英博物馆里最出名的文物,罗塞塔石...

0
0
2019/06/20 21:50

CVPR 2019 论文大盘点—文本图像相关篇

点击我爱计算机视觉标星,更快获取CVML新技术 CV君盘点了 CVPR 2019 文本图像相关论文,总计 17 篇。 其中研究文本检测的最多,共 7 篇,包括已经非常知名的PSENet,还有最近异常火爆的CRAFT。 文本识别 4 篇,其...

0
0
发表了博客
07/19 12:21

In Defense of Grid Features for Visual Question Answering论文笔记

Abstract 作为“自底向上”关注[2],基于边界框(或区域)的视觉特征最近已经超过了普通的基于网格的卷积特征,成为视觉和语言任务(如视觉问题回答(VQA))的事实标准。然而,还不清楚地区的区域(例如更好的定位)是否是自下而上注意力成功的关键原因。在这篇文章中,我们重新审视了VQA的网格特性,发现它们可以非常好...

0
0
发表了博客
2019/06/10 13:02

没有银弹-读《人月神话》重点摘录

作为软件工程的经典著作,《人月神话》的主要贡献是对软件开发过程的几个重要关键点,提出了独到的见解。 这几个关键内容就是: (1)提倡外科手术式的团队组织: [在软件开发组织上的过份民主,往往带来的是没有...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
4 收藏
分享
返回顶部
顶部