产品概述

合成数据指的是由计算机使用人为手段生成的数据,而不是从现实世界的环境中测量和收集的数据。这一数据是匿名的,并且是基于用户指定的参数而创建的,因此可以尽可能地和现实情境下的数据有着相同的特征。
研究人员会使用合成材料来低风险从而完成实验,数据科学家则采用了类似的方法,即利用合成数据来最大限度地减少时间、成本和风险。
合成数据也能够与真实数据进行互补,即使在真实数据集中没有很好的例子,但是也能够对每一个可想象变量进行测试。这能够加快企业对系统性能的测试以及对新系统的训练。

产品功能与优势

产品应用

每当隐私问题成为金融和医疗保健等行业的问题时,或者需要大量数据集来训练机器学习算法时,合成数据集都能够推动发展。下面是合成数据的一些应用:

  • 医疗组织能够使用合成数据(记录数据)来保护病人的隐私,同时为护理协议提供信息。模拟的X射线结合了真实的X射线来训练AI算法,从而识别病人的健康状况;

  • 在不需要公开个人财务记录的情况下,就能够对欺诈行为检测系统进行测试和训练;

  • 使用合成数据来测试软件,并保证质量;

产品架构

用户可以根据模型训练的结果,选择数据合成方式,形成新的高仿真数据。

产品优势

  • 自主学习的AI模型训练

  • 可选择的数据合成方式

  • 支持基于规则引擎的数据合成计算

  • 支持跨平台的数据模拟计算

  • 合成数据的再次有效

支持的数据库

  1. Oracle
  2. IBM DB2
  3. MS SQL SERVER
  4. Mysql
  5. Informix
  6. Terdata
  7. Sybase ASE
  8. SybaseIQ
  9. Greenplum
  10. 其他MPP数据库
  11. Hadoop
  12. DBF文件、DMP文件等

支持的操作系统

  1. Linux
  2. Unix
  3. Windows