数据质量与策略:解锁生成式AI潜力的关键步骤

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

虽然不太花哨,但根据对334名数据领导者的调查,AI的准备工作归根到底还是一些基础问题——企业数据的格式和质量。

许多组织对生成式AI兴奋异常,正积极布局以利用此技术。董事会正在举办教育研讨会并鼓励公司采取行动。高级管理团队在思考开发哪些用例。个人和部门也在试验这项技术如何提高他们的生产力和效率。

然而,真正关键的工作却落在了首席数据官(CDO)、数据工程师和知识策展人身上。不幸的是,许多人甚至还没开始做这些必要的工作。2023年下半年的一项调查显示,尽管这些数据领导者对生成式AI的热情与其他人一样高涨,他们还有很多准备工作要做。

特别是在数据准备方面,许多公司尚未创建新的数据战略,或开始以利用生成式AI所需的方式管理数据。

我们将描述这项调查的结果以及这意味着对数据的下一步操作。

最大化价值

AI历史上处理的是结构化数据,通常是行和列中的数字。但生成式AI使用非结构化数据——文本、图片甚至视频——来生成新的或重新组合的非结构化数据形式。它为人类内容创作者提供了帮助,也带来了竞争。CDO和数据领导者对这项技术的热情相同:80%的人同意它最终会改变他们组织的商业环境,62%的人说他们的组织计划增加在生成式AI上的投入。这项技术也让他们的角色受到了很多关注。

然而,调查参与者表示,大多数人尚未从他们的生成式AI使用中获得实质性经济价值。当被问及他们的组织如何处理生成式AI时,近三分之一的人表示他们在“个人层面上进行实验”,而不是为企业创建用例。另外21%的人表示他们在进行实验,但对员工使用有指导方针。略少的比例,19%,在部门或业务单元层面进行实验。

最重要的是,只有6%的人将生成式AI应用投入生产部署。

令人惊讶的是,有16%的人指出他们的组织禁止员工使用,尽管随着公司处理数据隐私问题和企业版生成式AI模型的出现,这种做法正在减少。

使用生成式AI的实验应该涉及业务的核心方面。一家积极用生成式AI进行研发实验的公司是环球音乐。公司对这项技术的浓厚兴趣并不奇怪,因为生成式AI可以创作音乐、编写歌词、模仿艺术家的声音。环球正在探索如何在保护艺术家知识产权的同时使用生成式AI。它还在进行另一个实验,使用环球艺术家的声音(得到他们的许可和参与)创作AI版本的歌曲。公司还对一个AI提供商采取了法律行动,以保护其艺术家的版权。

政策和概念验证可以有用,但它们不产生经济价值。

为了让生成式AI对公司真正有价值,它们需要用自己的数据定制供应商的语言或图像模型,并做好内部数据准备工作以便整合。

数据准备是成功的关键

生成式AI使用的相对非结构化数据需要精心策划,确保其准确性、新颖性、独特性和其他属性,如果使用这些数据的生成式AI模型才会非常有用。内部数据质量差将导致生成式AI模型反馈的质量差。

我们调查中的许多数据领导者都反映了这一挑战:46%的人将“数据质量”确定为实现生成式AI潜力的最大挑战。

摩根士丹利财富管理的首席数据、分析和创新官杰夫·麦克米伦描述了一些涉及的问题:

“每一份研究内容都必须由注册合规人员审查,所以我们知道培训内容的质量非常高。即使在非研究内容中,我们也有一个团队对单个提交评分,涉及标签要求、链接是否损坏、是否有前言总结等,我们会给每份文档打分。

我们还必须花很多时间考虑不同的内容集和优化结果……这些大型语言模型不能解决不同数据来源的问题。公司需要在尝试使用生成式AI获取数据之前,解决数据整合和掌握的问题。”

大多数数据领导者尚未开始在他们的数据策略中进行必要的改变。尽管93%的调查应答者同意数据策略对从生成式AI中获得价值至关重要,但57%的人表示他们的组织的数据迄今为止没有变化。只有37%的人同意——且只有11%的人强烈同意——他们的组织拥有适合生成式AI的正确数据基础。换句话说,

大多数组织在广泛应用生成式AI方面还有大量工作要做。

那些开始进行变革的数据领导者专注于几项具体任务。四分之一的组织正在进行数据整合或清理数据集。18%的人正在调查可能支持使用生成式AI的数据。还有17%的人在策划文档或文本以准备用于特定领域的生成式AI模型。

默克集团的集团首席数据和AI官瓦利德·梅汉纳强调了几种类型的数据准备的重要性:“如果我们要做AI,我们需要在混凝土上建造,而不是流沙上。我们正在使流程和数据供应处于良好状态。我们正在处理数据清单和目录、具有新数据结构和元数据层的数据织物、数据管道以及临时自助服务洞察生成。我们相信生成式AI将是未来从数据中创造洞察力的关键方式。”

赛诺菲的研发首席数据官拉杰·尼玛加达也表示,公司正在为生成式AI准备数据,并告诉我们

成功的生成式AI“取决于高质量、‘业务就绪’的数据,这些数据是由坚实的数据基础、数据治理和标准指导的。”他说,赛诺菲目前正在投资构建这些核心能力,以支持其研发。

就像数据转换一般,对大多数组织而言,策划、清理和整合所有非结构化数据以用于生成式AI应用将是一项巨大的努力。因此,大多数公司应该专注于他们预期将在不久的将来实施生成式AI的特定数据领域。公司可能需要较长时间才能使用生成式AI并从中创造价值。

在调查中,数据领导者优先发展生成式AI的商业领域依次是:客户操作(如客服或聊天机器人)、软件工程/代码生成、营销和销售活动(如个性化营销活动或销售优惠)以及研发/产品设计和开发。许多组织还在追求整体个人生产力应用的生成式AI,但这不太可能涉及特定的数据领域。

现在就是开始的时候

虽然我们认为数据领导者应该加快准备他们的数据以用于生成式AI的步伐,但我们也认识到还有其他重要的数据项目,包括改进交易数据和使数据可用于传统分析和机器学习应用。事实上,这种步伐有些缓慢的一个原因可能是71%的CDO同意“生成式AI很有趣,但我们更专注于其他数据计划以提供更有形的价值”。

鉴于对生成式AI的高度热情,这一调查结果有些令人惊讶。在2022年的调查中,CDO面临迅速交付价值的压力,但也需要促进生成式AI的实施。我们怀疑他们从管理和改进结构化数据到非结构化内容的转变有些缓慢。此外,关于谁应该领导公司内生成式AI的竞争也存在;CDO正在与CIO、CTO和首席数字官争夺这项新兴技术的领导权。

如果生成式AI将改变组织,那么等待开始准备数据是没有意义的。我们——以及大多数调查应答者——都同意生成式AI是一项变革性能力。让一个大组织的重要数据为AI做好准备可能需要几年时间。现在就是开始的时候。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/559154.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日一题(L2-011):玩转二叉树--建树+层序遍历

与L2-006近乎相同&#xff0c;先建树&#xff0c;然后遍历 #include<bits/stdc.h> using namespace std; int in[35]; int pre[35]; typedef struct Tree{int num;Tree* left;Tree* right; }T;T * build(int in1,int in2,int pre1,int pre2){T * tnew T;t->numpre[pr…

战姬物语部署

一.准备环境 #关闭seliunx和防火墙 setenforce 0 systemctl stop firewalld systemctl disable firewalld #配置源&#xff0c;并安装常用工 curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo …

Leetcode 86. 分隔链表

题目链接&#xff1a; 86. 分隔链表 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/partition-list/description/ 题目&#xff1a; 给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出…

深入探究图像增强(C语言实现)

我们将从基础出发使用C语言进行图像处理与分析&#xff0c;重点讨论图像增强和平滑技术。图像增强技术旨在通过增加对比度、亮度和整体清晰度来改善图像的视觉质量。另一方面&#xff0c;图像平滑方法则用于减少噪声并减少图像中的突变&#xff0c;使图像更加均匀和视觉上吸引人…

利用二维码定位技术实现桌面机器人简易定位方案(上篇)

目录 1、前言2、二维码的定位标签识别原理3、生成定位标签3、基于定位标签的物体识别与定位 1、前言 机械手臂尤其是工业场景下大部分的应用是在一个平面&#xff08;桌面&#xff09;内完成一些抓取工作。一般可以用示教方式完成重复步骤。但是示教方式&#xff0c;对于一些活…

过氧化氢滴定方法可用的PFA器皿有哪些?

滴定液:KMnO4标准溶液 试液:H2O2商品液(3%)&#xff0c;H2SO4 (3.0mol/L ) 指示剂:酚酞指示剂 仪器:分析天平&#xff0c;PFA酸式滴定管50mL&#xff0c;PFA 移液管10mL/25mL、PFA 容量瓶250mL、PFA锥形瓶250mL 1、KMnO4标准溶液浓度的标定(见实验:高锰酸钾标准溶液的配制与…

记一次普通的单表查询sql优化,去掉文件排序

一现象&#xff1a; 有空观察了线上某个sql语句执行计划&#xff0c;发现在500多毫秒左右&#xff0c;打算进行下优化。 二步骤&#xff1a; 对查询列assessment_periodic_id、assessment_user_id、create_time添加了组合索引并指定了倒叙。加入create_time 使查询结果不需要在…

阿里云OSS 存储对象的注册与使用

目录 一、什么是阿里云OSS 二、 点击免费试用 2.1 选择第一个&#xff0c;点击免费试用 ​编辑 2.2 登录管理控制台 2.3 进入Bucket 2.4、在阿里云网站上的个人中心配置Accesskey,查询accessKeyId和accessKeySecret。 2.5、进入AccssKey管理页面应该会出现下图提示&…

通用大模型研究重点之五:llama family

LLAMA Family decoder-only类型 LLaMA&#xff08;Large Language Model AI&#xff09;在4月18日公布旗下最大模型LLAMA3&#xff0c;参数高达4000亿。目前meta已经开源了80亿和700亿版本模型&#xff0c;主要升级是多模态、长文本方面工作。 模型特点&#xff1a;采用标准的…

Java面试八股之Java异常处理完成后,Exception对象会发生什么变化

Java异常处理完成后&#xff0c;Exception对象会发生什么变化 这个题的难度在于&#xff0c;看到题之后可能不知道面试官想问什么。在面试中&#xff0c;如果实在没明白&#xff0c;可以让面试官再深入阐述一下。 Java异常处理完成后&#xff0c;Exception对象失去了程序中的…

自定义Blazor单文件Web程序端口

#接 上篇 Mysql快速迁移版的制作过程# 上一篇《Mysql8快速迁移版的制作过程》完成了快速迁移的数据库的准备&#xff0c;今天接着讲基于Blazor的Web程序快速迁移版的制作。 单文件发布的难点不在发布而是因为程序系统默认给了个5001的端口&#xff0c;而是如何能够让用户自定…

Leetcode 11.盛最多水的容器(暴力->双指针)

给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明&#xff1a;你不能倾斜容器。 示例 …

Postman调用OpenApi接口

首先你需要科学上网。。。。。 请求方式&#xff1a;post 请求地址&#xff1a;https://api.openai.com/v1/chat/completions 请求头&#xff1a; Authorization : Bearer key Content-Type : application/json Body : { "messages": [{ "role": &quo…

【精简改造版】大型多人在线游戏BrowserQuest服务器Golang框架解析(1)——功能清单

1.匿名登录 2.服务连接 3.新手引导 4.随机出生点 5.界面布局 6.玩法帮助 7.NPC会话 8.成就系统 9.成就达成 10.用户聊天 11.战斗&信息展示 12.药水使用 13.副本传送 14.玩家死亡 15.超时断开

OpenHarmony 视图缩放组件—subsampling-scale-image-view

简介 深度缩放视图&#xff0c;图像显示&#xff0c;手势平移缩放双击等 效果图&#xff08;旋转、缩放、平移&#xff09; 下载安装 ohpm install ohos/subsampling-scale-image-view OpenHarmony ohpm 环境配置等更多内容&#xff0c;请参考如何安装 OpenHarmony ohpm 包 使…

Servlet第四篇【request对象常用方法、应用】

什么是HttpServletRequest HttpServletRequest对象代表客户端的请求&#xff0c;当客户端通过HTTP协议访问服务器时&#xff0c;HTTP请求头中的所有信息都封装在这个对象中&#xff0c;开发人员通过这个对象的方法&#xff0c;可以获得客户这些信息。 简单来说&#xff0c;要得…

mysql四种引擎区别

MySQL 提供了多种不同的数据库引擎&#xff0c;其中最常见的有 MyISAM、InnoDB、MEMORY 和 BLACKHOLE。这四个引擎分别有以下特点&#xff1a; 1. MyISAM MyISAM 是 MySQL 的默认引擎。它对于只有较少的修改、大量读取的应用场景具有良好的性能。它不支持事务处理&#xff0c;也…

理解字符串常量池(JVM)

大纲 思考 如何查看字符串常量池&#xff08;StringTable&#xff09;&#xff1f; 使用 jclasslib 插件打开字节码&#xff0c;选择 常量池 -> 显示所选 -> CONSTANT_String_info&#xff0c;左侧过滤后的内容即为字符串常量池 字符串常量池、方法区、永久代和元空间的…

Dynamic Wallpaper for Mac:动态壁纸让桌面更生动

Dynamic Wallpaper for Mac是一款为苹果电脑用户精心设计的动态壁纸软件&#xff0c;它以其丰富的功能和精美的壁纸库&#xff0c;为用户带来了更加生动和个性化的桌面体验。 Dynamic Wallpaper for Mac v17.8中文版下载 这款软件支持多种动态壁纸&#xff0c;用户可以根据自己…

unity学习(86)——细节优化

东西已经做出来了&#xff0c;现在需要的是优化&#xff0c;说得简单&#xff0c;做起来难。 1.122包的优化&#xff0c;避免重复创建&#xff01; 2.为何会出现一边动&#xff0c;一边不动的情况。重复登录后依旧是unity可以看到移动&#xff0c;但是exe那边看不到移动&#…
最新文章