产品概述
合成数据指的是由计算机使用人为手段生成的数据,而不是从现实世界的环境中测量和收集的数据。这一数据是匿名的,并且是基于用户指定的参数而创建的,因此可以尽可能地和现实情境下的数据有着相同的特征。
研究人员会使用合成材料来低风险从而完成实验,数据科学家则采用了类似的方法,即利用合成数据来最大限度地减少时间、成本和风险。
合成数据也能够与真实数据进行互补,即使在真实数据集中没有很好的例子,但是也能够对每一个可想象变量进行测试。这能够加快企业对系统性能的测试以及对新系统的训练。
产品功能与优势
产品应用
每当隐私问题成为金融和医疗保健等行业的问题时,或者需要大量数据集来训练机器学习算法时,合成数据集都能够推动发展。下面是合成数据的一些应用:
-
医疗组织能够使用合成数据(记录数据)来保护病人的隐私,同时为护理协议提供信息。模拟的X射线结合了真实的X射线来训练AI算法,从而识别病人的健康状况;
-
在不需要公开个人财务记录的情况下,就能够对欺诈行为检测系统进行测试和训练;
-
使用合成数据来测试软件,并保证质量;
产品架构
用户可以根据模型训练的结果,选择数据合成方式,形成新的高仿真数据。

产品优势
-
自主学习的AI模型训练
-
可选择的数据合成方式
-
支持基于规则引擎的数据合成计算
-
支持跨平台的数据模拟计算
-
合成数据的再次有效
支持的数据库
- Oracle
- IBM DB2
- MS SQL SERVER
- Mysql
- Informix
- Terdata
- Sybase ASE
- SybaseIQ
- Greenplum
- 其他MPP数据库
- Hadoop
- DBF文件、DMP文件等
支持的操作系统
- Linux
- Unix
- Windows