数据质量决定AI的未来 云测数据掀起的行业飓风


人工智能被认为是新工业革命最有可能的转折点。所有国家都积极参与这一方向的竞争。中国目前的竞争地位仍然很好,应该是前两名之一。人工智能的发展需要三个要素,即计算力、算法和数据。其中,计算力属于基础设施能力。算法可以看作是一种基于基础设施的工作方法,而数据相当于用来指导算法操作的基础。从一个可以完全运行的人工智能应用程序来看,没有计算力,算法和数据就无法运行,没有算法,数据就无法执行,没有数据,计算力和算法就变成装饰。然而,目前人工智能的发展阶段与足够的计算力和算法相吻合,人工智能数据非常匮乏。毫不夸张地说,没有高质量的数据,人工智能就没有未来。

人工智能只能与数据一起运行,但是数据的质量对人工智能的可用性起着决定性的作用。目前,人工智能的发展需要大量的数据,但对于人工智能来说,数据量并不等于数据质量。只有高质量的数据才能在算法中发挥决定性作用,从而产生生产力。然而,一般质量的海量数据不仅无用,而且对人工智能有害。在大数据产业出现之前,有一个对大数据去噪的过程。在人工智能时代,随着人工智能公司对高质量数据需求的增加,数据标注开始形成一个行业,并在人工智能的发展中发挥着越来越重要的作用。云数据是该行业的领先企业。

像百度和阿里巴巴这样拥有海量数据的企业,需要清理和标记数据,并将海量数据处理成有价值的数据。更不用说人工智能需要在人工智能产业衰落的前夕恢复更多特定场景的数据。对于资产较轻的人工智能公司来说,使用人力成本太高,所以人工智能公司经常外包这类工作。结果,一个以数据标签为核心的人工智能数据服务市场出现了。据艾瑞咨询(iResearch)的报告,2018年人工智能基础数据服务市场将约为25.86亿元,预计到2025年市场将约为113亿元。这是一个快速增长的市场,许多企业都参与其中,为人工智能产业的发展提供最不可或缺的服务。

数据标签行业本质上是劳动密集型行业,因为主要工作流程涉及人力。例如,谷歌大脑在那一年成功地从视频中认出了一只猫。计算成本是16000台计算机学习1000万张图片。在目前的计算没有任何突破的情况下,这种情况不能适用于地面,因为机器识别猫需要很长时间。如果你在房间的床上认出一只猫呢?从应用的角度来看,计算成本太高,无法实施。将此案例付诸实践的唯一方法是收集并标记大量的cat图片训练算法,以提高效率。在数据标签行业,这只是一个单一的工作场景,并且有越来越复杂的数据需求。

当自动驾驶车辆在路上行驶时,可能出现什么情况?由于智能驾驶领域的特殊性,其算法模型需要能够处理任何常规情况和紧急情况,前提是尽可能满足数据要求。这是最常见的简单场景,汽车出现在前面、后面、左边和右边。在自动驾驶发展的现阶段,可以采取相应的措施来避免它。然而,如果一只鸟在汽车前面飞,或者一个人拿着伞走在汽车前面,这是一个非常常见的复杂场景。没有一家互联网公司有这样的数据,它只能依靠云测量数据和其他数据服务公司来构建和收集特定场景的数据。为了保证无人驾驶车辆的安全,背景人工智能数据需要包含公路上尽可能多的情况,有些情况发生的概率接近于零,但只要不是零,无人驾驶车辆的算法模型就需要这些数据。一个例子是特斯拉有一辆车,它在自动驾驶状态下从车里出来,摧毁了人们。原因是自动驾驶系统没有识别出前面白色汽车和天空之间的区别。结果,自动刹车没有及时停下,冲了过去。

随着人工智能的应用越来越广泛,对相应的高质量、准确、安全数据的需求也在不断增加。Testin云测量成立于2011年,从应用测试业务开始,在服务了100多万家企业后,通过行业前瞻判断,抓住机遇顺应市场趋势,进入人工智能数据服务领域,建立了数据标签业务品牌云测量数据。通过自建的数据场景实验室和数据标注基地,为智能驾驶、智能家居、智能城市、智能金融、零售等领域提供定制的数据采集和数据标注服务,全面支持文本、语音、图像、视频等类型的数据处理。在很短的时间内,云测量数据已经成为国内人工智能数据标签服务市场上的第一个。目前,市场上主要的人工智能企业都是他们的客户。

云测量数据可以说随着应用人工智能市场的增长而增长。其目前的市场地位不仅顺应潮流,而且继承了对东洋市场长期培育的过程管理和人员合作经验。更重要的原因是云测量数据在开发新业务时有规则和条例。当一个新市场处于初始阶段时,通常是一个野蛮的增长时期。缺乏监管和市场知识都将导致这个市场的内乱。为了获得尽可能多的市场红利,企业往往只注重增长而忽视其他方面,甚至采取一些非常规手段来保证快速增长。然而,人工智能数据标签服务中的云测量数据之战显然没有遵循这条看似传统的道路。

需求定制是云测量数据业务模型的核心。无论是数据注释还是数据收集,云测量数据已经发展出一套科学的生产和管理流程。中国东部、南部和北部自建的云测量数据交付中心和数据收集基地,在改善数据生产流程环境和确保数据交付效率的同时,极大地促进了数据的最终质量保证。如果为了节约成本,工作场所可以用小的车间数据来标记,那么生产环境就很恶劣,员工的素质也不高。虽然可以节省一些钱,但毕竟不能提供最好的服务。云测量数据是通过将人工智能数据服务作为一项长期业务来完成的,而不是快速赚钱。这一主导思想自然会对最终结果产生积极影响。

事实上,云数据更吸引客户的是在数据安全方面所做的努力。在行业发展之初,很少有公司会重视这个问题,但云数据对此非常重视。采集场景数据前,云测量数据将与采集的用户签署数据授权协议,以确保人工智能企业用于培训的数据合法合规。操作过程中采用数据隔离机制。所有数据都包含在标签平台中。员工可以在平台上工作,但不能真正访问数据以确保数据的安全。另一点是数据不会被滥用,数据在交付后不会被销毁,也不会被再次使用。从安全防范到操作过程,到数据审查和质量保证,云测量数据在各个环节都建立了一套完善的机制和管理制度,以保护系统数据的安全和隐私。

Testin cloud CMO张鹏飞也强调,“整体而言,人工智能数据行业没有统一的标准,并强调安全性、隐私性等。然而,从长远来看,我们一直在努力为行业服务,并从隐私和安全保护的角度为数据质量设定基准。只有以这种负责任的态度为客户服务,我们的行业才能“赶走坏硬币”,真正使人工智能成为新一轮技术革命,改变整个社会和人类的进程”。

事实上,这些看似复杂的安全和质量机制正是顾客所看重的。即使客户的要求可能没有这么详细,云测量数据也能通过科学的流程积极消除客户的顾虑,并且必须获得客户的认可。因为没有人希望他们的重要数据泄露出去,也不希望他们的数据在经过一些处理后不能满足要求。人工智能公司和人工智能数据服务公司之间最重要的事情是

完全机械化和完全智能化的时代还远未到来。在实现这一目标的过程中,相应的劳动力消耗和离线活动是必要的。因此,云测量数据有足够的开发空间和机会。人工智能数据服务似乎已经做了足够的基础工作,但是这些工作对于人工智能产业的发展是不可或缺的。如果数据是驱动人工智能的能量,那么数据标签就是提供石油的角色。如果数据是驱动人工智能的血液,那么数据标记就是造血干细胞,其功能和功能的重要性再怎么描述也不为过。云数据是这一新兴产业的领导者,并将随着人工智能产业的发展而继续增长。

——