在所有产品类型中,据估计AI产品是最多的数据。要训练模型,必须提供许多数据。 2020年6月9日,颅内肿瘤核磁共振图像辅助诊断软件已获得中国药物监督局的批准,获得了成像辅助诊断领域的第一张III医疗设备证书。
在这组人工智能软件中,脑肿瘤诊断的准确性超过90%,诊断的常见类型的准确性达到96%。训练此软件算法模型可以为数百万的成像案例,大量数据,强大的计算能力和高分辨率提供供应,从而允许一组新的体验来总结人工智能,从而在成像诊断领域取得了突破。
可以说,在AI产品,数据,算法和计算能力的领域中,三个中心。数据的准备是开始产品设计和开发的必要初步工作。
数据准备主要包括两个部分,第一个是数据收集,第二个是数据清洁。
1。数据收集
顾名思义,数据收集是收集培训所需的数据。例如,我必须建立一个面部识别模型,因此必须是人们的面部数据集合。我必须建立对话机器人系统。您是否必须戴头盔识别,并且必须用头盔从头盔中收集数据。
如果我想制作宠物狗的类别识别模型,我必须收集各种狗的图像数据并将其分类为存储。
简而言之,数据收集是存储数据分类的过程,就像我们的方法一样,首先要购买食物,存储菜肴并存储该过程。
目前,数据收集的三个主要来源,即数据服务提供商,公共网络收集和内部数据的采购。
数据提供商提供的数据通常更好,数据相对较大。您可以直接使用模型培训。只是这种类型的数据通常更高。
此类数据的类型是通用的。对于某些小类别,垂直字段中的数据服务提供商通常不是。例如,这些是外部提供商提供的数据。
互联网的公共数据最好理解。例如,培训问题的意图需要大量的简短询问意图。目前,您可以从爬行。因为这是一个问答平台。
第三种类型的内部数据也很容易理解。如果有内部数据,则必须首先使用内部数据。他的收购成本是最低的,并且有一些利基垂直领域。无法获得外部,只能从内部获得。
例如,在流行病的早期阶段,北京癌症医院的新牙冠肺炎的智能认识是基于5,000多个病例的CT图像样本数据,学习训练样品的病变纹理,并开发了一种新的AI算法模型。分析的准确率达到96%。这些CT图像是内部数据。
2。数据清洁
数据收集完成后,无法直接使用。它需要清理并将这些数据变成可用的数据。这就像从蔬菜市场购买蔬菜后制作菜肴和切蔬菜的过程。
数据清洁主要是清洁三种类型的数据:
数据缺乏解决方案大致分为两种类型。第一个是直接删除,第二个是填充它。
数据格式不是统一的,最好解决它,只需进行归一化处理即可。
如果有异常值,您只需要找到异常值并将其删除即可。寻找不同数据的异常值的方法不是相同的。例如,特定学校中有30,000人正在手动进入每个人的体重。您可以使用3σ法检查查找入口错误数据。
3。摘要
在整个建模过程中,数据收集和数据清洁工作很重要,数据的质量直接影响最终模型的准确性。但是,数据收集和数据清洁是一项痛苦的工作。该过程很麻烦,技术内容不高。它要求AI产品经理和算法工程师一起完成它们。这将花费更多的时间,必须耐心和小心。
#专栏作家#
老子,每个人都是产品经理专栏作家。 AI产品经理,专注于自然语言处理和图像识别。智能保险初创公司的合作伙伴现在希望与人工智能领域的企业家进行交流。
版权声明:本文为 “ 【博览广文网】阅览万文、增长见识,广阔的软文阅读网站!” 原创文章,转载请附上原文出处链接及本声明;
工作时间:9:00 - 18:00
客服电话
暂无电话/微信dat818
电子邮件
80765864@qq.com
扫码二维码
获取最新动态