在济南超算中心产业园内,山东四维云科数据科技有限公司一群刚参加工作的年轻人正在电脑前,用软件工具对一张张3D车库雷达影像反复观察、对比,处理稀疏、不规则的点云,标注出柱子、墙体、汽车以及可移动物体的轮廓,经过标注的数据最后变成语料,投喂给大模型,训练出高阶智驾。虽然从未体验过自动驾驶,但他们的工作却与自动驾驶技术的AI算法息息相关。手中的鼠标,连着AI的“眼睛”和“大脑”,标注的每一笔,都在教机器如何认识世界。公司创始人王涛告诉记者,他们这家数据标注企业刚成立不到一年,目前员工有70多人,常见的自动泊车、智能驾驶、网络客服、语音助手、人脸识别等,最终都是靠数据标注来支撑。有多少智能,背后就有多少人工。
走进市中区望岳·智谷产业园23层的山东金算通数字科技有限公司,智能台灯能够精准识别孩子是在专注学习还是在玩游戏、提醒纠正不良坐姿;他们研发的AI政务员、分析员,辅助处理热线工单……这些都是靠海量的数据语料以及算法、算力训练出来的。“数据标注,可以理解为把矿石变为金属的过程。没有标注的原始素材,大模型是没法识别的。”该公司副总经理杨传彬表示,数据质量的高低直接关乎大模型的性能,如果数据有误差,训练出来的大模型容易出现“幻觉”,答非所问,纠正难度极大。
“专家标注的数据,投喂出来的大模型就是专家水准,实习生标注的数据,最终训练出来实习生水平。”在历下区医疗数据标注产业基地内,山东宣驰信息科技有限公司负责人宋勇表示,数据决定了大模型的性能上限。他从医科院校招聘了上百名临床医学的大学毕业生,为客户标注医学数据。“比如我们这个项目是识别标注钙化灶,客户拿来训练大模型用于肺癌早筛。不能标错,必须医学专业的来做。数据合格率保持在98%以上。”他们之前接的金融数据标注业务,则要求一本以上金融专业、三年以上券商从业经验。当AI能力越强,对数据规模、质量的要求就越高,对标注员的知识背景和专业能力要求也随之攀升。
宋勇服务的客户多数是阿里、字节跳动、腾讯等互联网大厂,规模小了接不住大单、急活。在济南市大数据局和历下区政府的支持下,他开始牵头孵化数据标注产业基地,抱团发展,目前已经成功培育出7家企业,从业人员300多人,预计到明年年底能达到1500人的规模。宋勇计划,通过争取卫健系统的支持,发展高技术含量、高知识密度、高价值应用的医学数据标注业务,积极参与制定行业的团体标准、地方标准和国家标准,摆脱“劳动密集型产业”标签。
近日,《济南市数据标注产业发展行动方案(2025—2026年)》公布,出台一揽子扶持政策,助力这一新兴产业高质量发展,提出打造济南超算数据标注园区等3个综合型数据标注园区,推动建设历下医疗大健康数据标注园区、市中望岳·智谷数据标注园区等5个特色型数据标注园区;围绕工业制造、医疗健康、文化旅游、交通运输、商贸流通、金融服务、科技创新、现代农业、绿色低碳、政务服务等领域建设行业高质量数据集,深度挖掘应用场景和数据价值潜能。
主要开展关键技术攻关,构建数据标注产业标准体系,围绕电子信息、汽车、高端软件、现代医药、集成电路、高端数控机床与机器人、空天信息、人工智能、新能源装备、专用装备、先进材料、钢铁、食品与生物制造等13条主攻产业链,培育壮大本地经营主体,拓展应用场景。
济南正积极布局高端数据标注产业,虽相较于先发城市起步稍迟,但依托独特发展定位展现出强劲后发潜力,目前已精准从医疗、文化、高阶智驾等高端领域切入,持续拓宽差异化发展路径。济南市大数据局局长张熙表示,济南的大模型以及软件产业优势明显,链主企业、龙头企业多,更形成了具备竞争力的产业生态;当前各方虽普遍认可数据资源的重要性,但多数主体更愿意为模型、算力买单。各行各业在推动行业大模型应用的过程中,应进一步加大对数据资源的投入,共同培育为优质数据买单的行业共识。作为国家数据要素综合试验区核心区、国家人工智能创新应用先导区、国家新一代人工智能创新发展试验区和国家工业互联网建设示范区“四区叠加”的城市,近年来济南着力围绕数据、算法、算力三要素,推进人工智能大模型攻关,而人工智能模型训练又推动数据需求上升。
记者了解到,数据标注产业作为人工智能产业的基石,充分释放数据要素价值,深度赋能济南市大数据、人工智能等产业高质量发展,未来市场前景广阔。在初级阶段,仍然存在顶层设计尚需完善,高水平人才供不应求,技术创新能力有待提升,专业平台能力不足等问题,制约着产业生态的进一步完善。济南此举就是围绕数据要素“供得出、流得动、用得好、保安全”打造产业生态,培育一批成长性好、特色鲜明的数据标注企业,立足省会经济圈,提升济南市数据标注产业影响力。