数据合成系统

产品概述

合成数据指的是由计算机使用人为手段生成的数据，而不是从现实世界的环境中测量和收集的数据。这一数据是匿名的，并且是基于用户指定的参数而创建的，因此可以尽可能地和现实情境下的数据有着相同的特征。
研究人员会使用合成材料来低风险从而完成实验，数据科学家则采用了类似的方法，即利用合成数据来最大限度地减少时间、成本和风险。
合成数据也能够与真实数据进行互补，即使在真实数据集中没有很好的例子，但是也能够对每一个可想象变量进行测试。这能够加快企业对系统性能的测试以及对新系统的训练。

产品功能与优势

产品应用

每当隐私问题成为金融和医疗保健等行业的问题时，或者需要大量数据集来训练机器学习算法时，合成数据集都能够推动发展。下面是合成数据的一些应用：

医疗组织能够使用合成数据（记录数据）来保护病人的隐私，同时为护理协议提供信息。模拟的X射线结合了真实的X射线来训练AI算法，从而识别病人的健康状况；
在不需要公开个人财务记录的情况下，就能够对欺诈行为检测系统进行测试和训练；
使用合成数据来测试软件，并保证质量；

产品架构

用户可以根据模型训练的结果，选择数据合成方式，形成新的高仿真数据。

产品优势

自主学习的AI模型训练
可选择的数据合成方式
支持基于规则引擎的数据合成计算
支持跨平台的数据模拟计算
合成数据的再次有效

支持的数据库

Oracle
IBM DB2
MS SQL SERVER
Mysql
Informix
Terdata
Sybase ASE
SybaseIQ
Greenplum
其他MPP数据库
Hadoop
DBF文件、DMP文件等

支持的操作系统

Linux
Unix
Windows