数据集是一个广泛的概念,通常指的是一组数据的集合。这些数据可以是各种形式,包括但不限于数字、文本、图像、音频和视频等。数据集中的每一条记录通常被称为一个“样本”,而每个样本中的数据项则称为“特征”。数据集可以用于统计分析、机器学习、深度学习等多种人工智能应用。
类型化数据集:这种数据集使用XML架构文件(.xsd文件)中的信息生成新类,可以直接通过名称引用表和列。
非类型化数据集:包含表、列等,但只作为集合公开,需要通过Tables集合引用列。
促进具身智能的发展
具身智能是指机器能够像人类一样与环境进行交互和感知。高质量、多样化的数据集是实现具身智能快速突破和具身机器人快速落地应用的关键。例如,创新中心发布的RoboMind数据集,采用了包括含单臂机器人、双臂机器人、人形机器人等多种形态的机器人本体进行数据采集,涵盖了家居、厨房、工厂、办公、零售等大部分生活服务场景。
提升模型训练效果
优质的数据集能够加速具身智能模型的训练与部署,帮助其控制各种类型的机器人遵循不同的指令,对复杂任务进行基本推理,并有效地完成这些任务。RoboMind数据集已在主流单任务模仿学习模型和具身多模态大模型进行了评测,证明其有效提升了模仿学习模型在现实场景下任务的成功率。
数据质量参差不齐
目前业内发布的数据集标准不一,存在数据质量参差不齐、数据通用性复用性差、部分数据实测效果不理想等问题。
数据合成和处理技术有待提升
利用深度学习和强化学习生成高精确度、多样化合成数据的技术在成熟度和应用范围上急需突破。我国缺乏类似美国Databricks和Snowflake"数据+人工智能"模式的高质量数据汇聚和治理主体。
缺乏统一的数据标准和规范
各领域数据缺乏适用的标准规范;在数据使用方面,缺少面向大模型和具身智能模型训练的数据共享和流通促进机制,一定程度上限制了模型能力的快速提升。
加快公共数据开放和企业数据流通
建设面向新一代人工智能的高质量数据集,打破信息孤岛,构建完备数据生态。
围绕建设行业高质量数据集关键技术问题加大攻关力度
面向数据合成和处理,加快开发数据合成、数据治理的关键共性技术;面向数据流通汇聚,大力推广隐私计算、区块链等技术。
引导企业和商业模式创新,构建人工智能数据产业生态
大力培育人工智能数据资源、技术、服务、应用、安全、基础设施等多领域企业,重点建设面向人工智能行业的数据产业创新平台。
加大人工智能高质量数据集建设政策支持力度
完善数据资源构建体系,培育数据产业,支持数据技术发展,系统推进高质量数据集建设,强化行业应用。
省有关单位,各市数据资源局,有关建设主体: 为推动高质量数据集有效供给,服务我省人工智能等产业发展,根据《关于 […]
安徽首个!空天信息技术“守护”合肥城市用电 4月23日,合肥供电公司发布消息,安徽首个空天信息技术和电力巡检领 […]
4月23日从安徽农业大学获悉,由该校信息与人工智能学院教授饶元牵头组稿的国内首个农业信息高质量图谱数据集专题在 […]
省有关单位、各市数据资源局: 为贯彻落实国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年 […]
安徽首个!空天信息技术“守护”合肥城市用电 4月23日,合肥供电公司发布消息,安徽首个空天信息技术和电力巡检领 […]
4月23日从安徽农业大学获悉,由该校信息与人工智能学院教授饶元牵头组稿的国内首个农业信息高质量图谱数据集专题在 […]
7月16日,芜湖金桔科技有限公司以其相关汽车数据资产作为质押物,成功从芜湖金财典当有限责任公司获得100万元直 […]
7月11日,“安徽省数据要素创新应用中心”正式落户芜湖。未来,将为芜湖建设全省数据要素创新示范区以及打造“智算 […]
在春晚上扭秧歌的人形机器人既智能又可爱,但你知道它是如何进行复杂动作吗?海量的数据和模型训练必不可少。6月19 […]
每当闪电、惊雷响彻天空,这一刻,你的心是否也为之揪紧。随着低空经济起飞,低空飞行器同样面临着雷暴威胁。 要如何 […]
省有关单位,各市数据资源局,有关建设主体: 为推动高质量数据集有效供给,服务我省人工智能等产业发展,根据《关于 […]
省有关单位、各市数据资源局: 为贯彻落实国家数据局等部门印发《“数据要素×”三年行动计划(2024—2026年 […]
各有关单位: 根据《安徽省生态环境科技项目管理办法》,现就2025年生态环境科技项目申报工作有关事项通知如下: […]
近年来,数字乡村基础设施不断完善,农业物联网、智能装备、精准种植等技术加快落地,乡村电商、智慧物流等新业态蓬勃 […]
活动议程 13:00-13:30 入场签到 13:50-14:00 主持人开场 曾辉 白鲸开源高级社区经 […]