大模型中的数据_大模型样本数据质量 csdn-程序员宅基地

技术标签: 人工智能  数据库  大模型专栏  

简介:        

       数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言,对于基础大模型,目前的做法是使用未指定或不明确的原则选择训练数据,并且训练数据的性质普遍缺乏透明度。我们认为,需要一种替代方法来重新构想围绕基础模型的数据生态系统:我们利用数据可视化和管理方面的工作,为基础模型提出一个数据中心。我们阐述了该提案如何与基础模型的许多相关的以数据为中心的考虑因素相关:选择,策展,文档,访问,可视化和检查,质量评估和法律的监管。

        基础模型标志着一种范式转变,越来越多的大量数据被馈送到这些模型中,以提高适应性能,总体经验法则是数据越多越好。如前所述,对数据策展的关注引起了对基础模型数据生命周期的关注,包括:

       1.  管理如此大规模的数据

       2.  在新模式中整合数据

       3.  对许可证和治理法规的推理-特别是考虑到基础模型培训中使用的大规模网络爬行时,

       4.  理解数据质量

       虽然基础大模型为这些挑战增加了新的和困难的方面,但我们看到这些问题与数据管理和数据分析以及工业ML管道等社区的核心挑战之间存在相似之处。例如,数据管理长期以来一直在研究可扩展的声明性系统,用于数据分析,版本控制,出处和集成解决挑战12。行业拥有应对挑战3的渠道,以管理各种数据许可证并帮助减少数据违规。有一个完整的研究和系统生态系统来应对挑战4,以支持交互式数据分析和可视化虽然这些解决方案不一定是基础模型就绪,但我们认为,更好地管理基础模型数据生命周期的路径应该从这些现有系统中获得灵感。

       在本文中,我们将讨论管理基础模型数据生命周期。我们首先概述了四个必要条件,包括大规模数据管理、对异构数据源的支持、数据治理和数据质量监控。然后,我们设想如何将所有这些需求集成到称为数据中心的整体数据管理解决方案中。数据中心只是一个数据管理工具包,可供私营或公共部门使用,以更好地支持基础模型数据生命周期的交互式管理。

1. 必要的数据管理

       当前基础模型开发的实践通常在从数据管理和数据文档到模型监测和修补的整个生命周期中是临时的。数据管理社区的研究表明,定义良好的数据管理平台通过数据摄取、数据版本控制、数据来源、有效分析和模型监控促进了大规模的ML模型开发.从数据管理社区中汲取灵感,我们在为基础模型构建整体数据管理平台时考虑了核心需求。

(1)  可扩展性。基础模型正在越来越大量的数据上进行训练Wudao 2.0模型正在4.9TB的多模态数据上进行训练。随着大多数最新模型主要在面向公众的数据集上进行训练,预计这一规模将增加。与每天收集并用于工业基础模型管道的PB级业务和个人数据相比,公共数据只占数据的极小部分。因此,对于可以处理多模态基础模型数据集的高度可扩展技术的需求日益增长。

(2)  数据整合。最近使用基础模型的工作表明,利用集成的结构化和非结构化数据可以帮助模型更好地泛化到罕见的概念,并提高事实知识的回忆。尽管最近取得了这些成功,但为基础模型集成数据集仍然是一个挑战。许多作品使用具有结构化实体知识或图像数据的非结构化文本数据。越来越需要跨文本、视频、眼动跟踪和机器人模拟等多种模式集成数据集。我们需要能够在工业规模上应用于多种模式和多个领域(如政府、商业和科学)的数据集成解决方案。

(3)  隐私和治理控制。用于基础模型的训练数据可能存在侵犯数据主体隐私的风险;他们的数据可能在未经其同意的情况下被披露、收集或使用,或者在最初同意的背景之外。同意和使用的问题与基础模型特别相关,因为下游应用并不总是可以预期的。正如合法性中所解释的那样,这些问题与用于基础模型训练的网络抓取数据集的流行情况更加复杂。由于关于如何管理和保护网络抓取的数据仍然存在公开的法律的问题,公共和私营部门的基础模型提供商仍然不清楚使用网络数据的后果。我们需要工具来帮助基础模型提供商适应新兴的法规和指导方针,以确保安全和负责任的数据管理。

(4)  了解数据质量。数据质量影响模型性能;然而,系统地、可扩展地理解训练数据和相关数据子集的工具包或方法仍处于起步阶段。数据创建过程可能很混乱,数据可能包含不同类型的偏差,并由有毒、虚假或重复的信息组成。数据也会不断更新和细化,可能会出现新的实体、分布变化和概念含义变化。此外,一旦部署,基础模型可能会在基础模型提供商需要检测和缓解的关键细粒度数据子群体上呈现不良行为。我们需要能够检测并潜在地缓解不同类型的不良数据的工具包,以交互和迭代的方式提高模型性能。这种工具包还需要适应训练数据的动态性质。

2. 数据中心解决方案

       在数据管理、数据科学和数据分析方面,我们设想了一个基础模型生命周期数据管理解决方案,我们称之为数据中心。虽然存在以ML为重点的数据中心以及更传统的数据管理系统的示例,但它们有下述特点:

1)不将数据集成视为第一类原语,

2)不原生地支持具有模型预测的端到端生命周期,

3)不允许交互驱动的数据管理和细化,其中基础模型提供者可以根据访问控制指南动态地探索和更新可能的数据集。

      我们现在讨论数据中心如何解决这四个迫切需要。

数据规模

为了应对大规模管理的挑战,数据中心将需要标准的数据管理解决方案,例如随着时间的推移存储和维护大规模数据集的基础设施,以及查询、选择和过滤数据集的可扩展接口。中心应该支持异构计算以及云基础设施,以支持不同环境中的可扩展解决方案。

数据整合

中心应该将数据集成作为一等公民。它将需要先进的数据集成解决方案,以允许跨模态和领域合并结构化和非结构化知识。此外,这意味着集线器将需要支持对异构数据集和源的存储和查询。

访问控制

考虑到中心的访问控制,中心将需要支持各种文件,例如,数据集表或数据声明,允许数据管理者反思他们的流程,并对预期用例、潜在偏差和数据集的局限性保持透明。数据中心将需要决定要上传的数据需要哪些文档(例如,数据源和数据描述)以及推荐哪些信息(例如,数据可以用于什么任务)。此外,随着数据集的发展,可能需要更新文档。数据源通常与许可证相关联,中心将需要整合具有不同法律的问题和条件的不同来源此外,某些数据集具有保护数据主体隐私的法律的指南。该中心将需要方法来确保数据集不会释放个人身份信息(PII),匿名或去身份化数据的聚合不会释放PII并且数据主体已经对其数据的传播给予了知情同意。从数据集成中提取想法,该中心应支持各种机制,以便能够有效和安全地维护和分享数据资源。特别是某些公共数据集的合法性(例如,Web转储)仍在决定中,中心迫切需要工具来帮助识别许可违规并减轻任何治理违规的影响。由于某些违规行为可能与模型行为有关,因此我们需要系统来支持更好地理解模型行为,正如我们接下来描述的那样。

数据质量工具

       借鉴数据分析和探索领域,随着用户交互式地选择、过滤和细化用于训练或适应的数据,中心将需要工具来快速理解用户的当前数据集及其对模型行为的影响。这些系统可以通过结合最近在切片上的工作的模型性能,允许端到端的基础模型监控(亚群)发现、相关子集的模型验证和数据评价。最近的工作还提出了使用模型来检测哪些数据亚群对给定输出贡献最大的方法,以进一步帮助模型调试

       一旦用户可以监控模型的行为,特别是在罕见的,但关键的子人群,中心应该为用户提供方法和指导,以维护模型,纠正模型错误。虽然模型修补仍然是一个悬而未决的问题,但的工作首次描述了使用数据工程来维护生产自监督系统,该系统通过更改数据而不是模型来纠正不良行为。我们认为数据中心需要支持用户接口,以便为模型维护注入有针对性的数据修改。

       我们还承认,数据管理和探索不是孤立进行的,并认为数据中心应该支持围绕共享有用指标和分析管道的社区。受Hugging FaceModelHubTableau Public的可视化共享平台等类似社区共享平台的启发,我们希望用户分享有关基础模型训练数据的见解。

开放性问题

       虽然我们描述的数据中心是受现有工具包和解决方案的启发,但我们不认为它们都准备好应对基础模型的挑战。特别是,围绕设计数据中心的一些悬而未决的问题是:我们应该如何支持数据版本化,以便在维护旧版本的同时更新数据集以实现再现性?一旦部署了模型并确定了错误桶,可能需要更新数据集以包含这些错误桶中的更多示例。应该如何收集这些新的、有针对性的例子?·训练中所述,我们想象更少的模型将从头开始训练,更多的模型将被微调。我们如何支持来源或谱系信息以了解原始数据的来源,同时保持受试者隐私?在公共部门,数据中心可能由一个由数据管理者和基础模型提供者组成的开源社区组织和运行。在这种情况下,谁存储数据等问题的答案?谁来为电脑买单如果违反许可证,谁负责?特别模糊。数据中心如何提供正确的工具,以便一旦这些问题的答案得到解决,它们就可以轻松地操作?·什么是正确的数据统计,以提供适当的文件,而不是太昂贵或难以获得?·数据中心如何支持有针对性的数据修改,如增强或数据编程·监控工具包如何更好地检测基础模型何时需要更新,因为动态变化的评估数据性能不佳?我们对数据中心的愿景并不完整或完全详细。然而,我们提出了关于数据挑战的初步想法,以及一个解决方案,以促进思考如何改进基础模型生命周期的数据管理。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xw555666/article/details/134741566

智能推荐

oracle 12c 集群安装后的检查_12c查看crs状态-程序员宅基地

文章浏览阅读1.6k次。安装配置gi、安装数据库软件、dbca建库见下:http://blog.csdn.net/kadwf123/article/details/784299611、检查集群节点及状态:[root@rac2 ~]# olsnodes -srac1 Activerac2 Activerac3 Activerac4 Active[root@rac2 ~]_12c查看crs状态

解决jupyter notebook无法找到虚拟环境的问题_jupyter没有pytorch环境-程序员宅基地

文章浏览阅读1.3w次,点赞45次,收藏99次。我个人用的是anaconda3的一个python集成环境,自带jupyter notebook,但在我打开jupyter notebook界面后,却找不到对应的虚拟环境,原来是jupyter notebook只是通用于下载anaconda时自带的环境,其他环境要想使用必须手动下载一些库:1.首先进入到自己创建的虚拟环境(pytorch是虚拟环境的名字)activate pytorch2.在该环境下下载这个库conda install ipykernelconda install nb__jupyter没有pytorch环境

国内安装scoop的保姆教程_scoop-cn-程序员宅基地

文章浏览阅读5.2k次,点赞19次,收藏28次。选择scoop纯属意外,也是无奈,因为电脑用户被锁了管理员权限,所有exe安装程序都无法安装,只可以用绿色软件,最后被我发现scoop,省去了到处下载XXX绿色版的烦恼,当然scoop里需要管理员权限的软件也跟我无缘了(譬如everything)。推荐添加dorado这个bucket镜像,里面很多中文软件,但是部分国外的软件下载地址在github,可能无法下载。以上两个是官方bucket的国内镜像,所有软件建议优先从这里下载。上面可以看到很多bucket以及软件数。如果官网登陆不了可以试一下以下方式。_scoop-cn

Element ui colorpicker在Vue中的使用_vue el-color-picker-程序员宅基地

文章浏览阅读4.5k次,点赞2次,收藏3次。首先要有一个color-picker组件 <el-color-picker v-model="headcolor"></el-color-picker>在data里面data() { return {headcolor: ’ #278add ’ //这里可以选择一个默认的颜色} }然后在你想要改变颜色的地方用v-bind绑定就好了,例如:这里的:sty..._vue el-color-picker

迅为iTOP-4412精英版之烧写内核移植后的镜像_exynos 4412 刷机-程序员宅基地

文章浏览阅读640次。基于芯片日益增长的问题,所以内核开发者们引入了新的方法,就是在内核中只保留函数,而数据则不包含,由用户(应用程序员)自己把数据按照规定的格式编写,并放在约定的地方,为了不占用过多的内存,还要求数据以根精简的方式编写。boot启动时,传参给内核,告诉内核设备树文件和kernel的位置,内核启动时根据地址去找到设备树文件,再利用专用的编译器去反编译dtb文件,将dtb还原成数据结构,以供驱动的函数去调用。firmware是三星的一个固件的设备信息,因为找不到固件,所以内核启动不成功。_exynos 4412 刷机

Linux系统配置jdk_linux配置jdk-程序员宅基地

文章浏览阅读2w次,点赞24次,收藏42次。Linux系统配置jdkLinux学习教程,Linux入门教程(超详细)_linux配置jdk

随便推点

matlab(4):特殊符号的输入_matlab微米怎么输入-程序员宅基地

文章浏览阅读3.3k次,点赞5次,收藏19次。xlabel('\delta');ylabel('AUC');具体符号的对照表参照下图:_matlab微米怎么输入

C语言程序设计-文件(打开与关闭、顺序、二进制读写)-程序员宅基地

文章浏览阅读119次。顺序读写指的是按照文件中数据的顺序进行读取或写入。对于文本文件,可以使用fgets、fputs、fscanf、fprintf等函数进行顺序读写。在C语言中,对文件的操作通常涉及文件的打开、读写以及关闭。文件的打开使用fopen函数,而关闭则使用fclose函数。在C语言中,可以使用fread和fwrite函数进行二进制读写。‍ Biaoge 于2024-03-09 23:51发布 阅读量:7 ️文章类型:【 C语言程序设计 】在C语言中,用于打开文件的函数是____,用于关闭文件的函数是____。

Touchdesigner自学笔记之三_touchdesigner怎么让一个模型跟着鼠标移动-程序员宅基地

文章浏览阅读3.4k次,点赞2次,收藏13次。跟随鼠标移动的粒子以grid(SOP)为partical(SOP)的资源模板,调整后连接【Geo组合+point spirit(MAT)】,在连接【feedback组合】适当调整。影响粒子动态的节点【metaball(SOP)+force(SOP)】添加mouse in(CHOP)鼠标位置到metaball的坐标,实现鼠标影响。..._touchdesigner怎么让一个模型跟着鼠标移动

【附源码】基于java的校园停车场管理系统的设计与实现61m0e9计算机毕设SSM_基于java技术的停车场管理系统实现与设计-程序员宅基地

文章浏览阅读178次。项目运行环境配置:Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。项目技术:Springboot + mybatis + Maven +mysql5.7或8.0+html+css+js等等组成,B/S模式 + Maven管理等等。环境需要1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。_基于java技术的停车场管理系统实现与设计

Android系统播放器MediaPlayer源码分析_android多媒体播放源码分析 时序图-程序员宅基地

文章浏览阅读3.5k次。前言对于MediaPlayer播放器的源码分析内容相对来说比较多,会从Java-&amp;amp;gt;Jni-&amp;amp;gt;C/C++慢慢分析,后面会慢慢更新。另外,博客只作为自己学习记录的一种方式,对于其他的不过多的评论。MediaPlayerDemopublic class MainActivity extends AppCompatActivity implements SurfaceHolder.Cal..._android多媒体播放源码分析 时序图

java 数据结构与算法 ——快速排序法-程序员宅基地

文章浏览阅读2.4k次,点赞41次,收藏13次。java 数据结构与算法 ——快速排序法_快速排序法