UMAD (Universal Management and Analysis of Data) 是致力于实现通用的大数据管理分析系统的项目。该项目利用度量空间的高度抽象性的特点,将各种各样的数据类型抽象到度量空间之中,而所有的索引算法都针对度量空间这一数据结构进行设计,以此达到算法通用的目的。
项目基于 jdk12.0.2 实现,为了更好地支持中文,全部编码统一采用 UTF-8。项目目前支持 DNA、RNA、Peptide、Spectra、 Image 和 Vector 数据库的建立和相似性搜索。实现了常用的支撑点选择算法,如 FFT、CENTER、RANDOM 等;常用的数据划分算法,例如 Balanced、ClusteringKMeans、CGHT 和 GHT 等。
评论