ChatGPT被曝曾雇佣数据标注血汗工厂

2023-02-11 19:20 浏览:338 评论:0 来源:淘给网   
核心摘要:能聊天、代写论文、作诗编程样样不在话下,ChatGPT发布不到一周便收获了百万用户。其锋芒从美国席卷到中国,但在地球另一边的非洲大陆上,一群为OpenAI工作的外包数据标注员,曾遭受过非人的精神折磨。
ChatGPT被曝曾雇佣数据标注血汗工厂
ChatGPT被曝曾雇佣数据标注血汗工厂

能聊天、代写论文、作诗编程样样不在话下,ChatGPT发布不到一周便收获了百万用户。其锋芒从美国席卷到中国,但在地球另一边的非洲大陆上,一群为OpenAI工作的外包数据标注员,曾遭受过非人的精神折磨。
 
坐在电脑前、阅读一段文本、给出相应的标注、紧接着切换到下一段……这就是数据标注员的日常。在这场席卷中美两个市场的资本狂欢中,他们是边缘化的、被遗忘的却又至关重要的一个群体。
 
据美国《时代周刊》报道显示,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的外包肯尼亚劳工,他们所负责的工作就是数据标注。
 
数据标注的工作流程包括数据标注、打标签、分类、调整和处理等,是构建AI模型的数据准备和预处理工作中不可或缺的一环。对于ChatGPT这样的语言模型,如果没有人工标注来筛除一些不恰当的内容,那么它不仅会给出一些错误的信息,更会对用户造成心理不适。
 
更何况,类似ChatGPT这样的预训练模型在训练过程中需使用的数据样本较多,数据标注的需求较高。
 
那么如何规避上述问题,筛查出有害内容呢?OpenAI效仿了Facebook等社交媒体公司的做法——构建一个额外的AI模型,向它提供暴力、仇恨等带有攻击性的言论,从而让它学会识别相应内容。这样的模型会被内置到ChatGPT中,帮助后者过滤掉一些有害的文本。
 
在这个过程中,需要大量的人力来给攻击性言论做标注。于是,OpenAI在2021年底与一家外包公司Sama达成了合作。两者签署了三份总价值约20万美元的合同,OpenAI向Sama发送了数万个文本片段,包含大量的有关谋杀、自残、虐待甚至其他更加不堪的内容。Sama公司的每一个数据标注员的日常工作流程就是阅读文本并为其添加相应的标签。
 
1、“那是酷刑”
 
Sama是一家主营数据训练的公司,专注于为人工智能算法注释数据,客户包括沃尔玛、谷歌、通用汽车和微软等多个海外大厂。
 
据《纽约时报》早年报道和维基百科注释,Sama标榜自己为一家有道德的公司:“Sama的使命是在数字经济时代为低收入人群增加就业机会。”此外,公司声称已帮助超五万人摆脱了贫困。
 
而Sama数据标注员的真实工作情况如何?据《时代周刊》披露,根据资历和表现,Sama为OpenAI雇用的数据标注员的实际工资约为每小时1.32美元至2美元。有三位员工透露,在Sama,三十余名工人被分成三个小组,他们每九小时轮班阅读和标记150至250段文字,每段文字大约100词到1000词不等。
 
上述被采访员工均表示,这份工作给他们留下了“精神创伤”,虽然他们能够参加公司组织的团体心理辅导,但辅导并没有提供任何的帮助。此外,由于Sama对员工工作效率要求极高,所以公司很少组织心理辅导活动。有员工曾提出想与心理辅导员一对一进行咨询,但被Sama的管理层拒绝。
 
其中一位数据标注员坦言,在阅读了一些过于不堪的内容后,他反复出现幻觉。“那是酷刑。”他表示,“整个一周,你会反复的阅读这样的内容。等到周五,你会不停想象与它相关的场景。”
 
2、Sama的回应
 
低薪、高强度、创伤性的标注工作折磨着肯尼亚工人的身心。对于来自《时代周刊》等媒体的“控诉”,Sama回应外媒Quartz称,其支付给标注员的薪资几乎是东非其他内容审核公司的两倍,并给员工提供福利和养老金,并声称这样的待遇在东非并不常见。
 
据了解,肯尼亚并没有统一的最低薪资规定。但在内罗毕(肯尼亚首都),一个接待员的最低时薪是1.52美元,而Sama的数据标注员最低薪资仅为1.32美元。在Sama与OpenAI的合同中,OpenAI向Sama支付每小时12.5美元的工作费用,是Sama数据标注员最低薪资的9倍以上。
 
Sama的发言人还表示,在每九小时的轮班工作里,标注员只需要标记70段文字,而不是上文所述的150至250段文字。此外,数据标注员的税后时薪为1.46美元至3.74美元。合同中每小时12.5美元的工作费用覆盖了包括基础设施、质检、管理团队薪资等在内的所有成本。
 
针对员工遭受心理折磨的情况,Sama的发言人则声称,公司十分重视员工的心理健康。“我们为员工提供一对一的心理咨询。在审核、标注工作过程中,员工可以随时退出工作,且不会受到任何的惩罚。”该发言人补充道,“员工标注有害内容的时间是有限的,敏感信息会有专人处理。”
 
3、违法、解约和失业
 
2022年2月,OpenAI与Sama加深了合作,OpenAI要求Sama收集数千张暴力和黄色的图片,其中包括一些违法美国法律的内容。据《时代周刊》、《布鲁塞尔时报》等外媒报道,当月,Sama给OpenAI交付了一批1400张图像的样本,后者向前者支付了787.5美元。
 
但很快,两者的合作破裂。Sama在一份声明中表示,有关图像收集工作的原始合同并未包含违法内容,但工作开始后,OpenAI向其发送了一份附加说明,其中提及到一些涉嫌违法的内容。因此,Sama决定终止与OpenAI的合作。
 
在2022年2月下旬,陆陆续续有Sama的员工收到了转岗和裁员的通知。一位员工无奈的表示:“对我们来说,这是一份养家糊口的工作。而现在,仅有30多名工人被迫转到更低薪的岗位,其他人都面临失业。”
 
今年1月10日,Sama宣布取消所有涉及到敏感内容的工作,并表示不会与Facebook续签价值390万美元的内容审核合同。据了解,Facebook也曾被指控雇佣外包劳工来审核有害内容。
 
Sama表示,经团队多次讨论后,公司决定剥离自然语言处理和内容审核业务,专注于构建计算机视觉数据标注解决方案。
 
39只ChatGPT概念股
 
1、汉王科技(002362):与ChatGPT直接相关的为NLP技术,公司从事NLP子技术领域包含文本分类、信息抽取、知识抽取、机器问答、文本生成、机器翻译等。
 
2、天娱数科(002354):下属子公司元境科技致力于用AIGC推动元宇宙进入智能时代,依托metaSurfing-元享智能云平台,元境科技虚拟数字人已经接入ChatGPT等模型,并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用,并形成产品化解决方案。
 
3、万兴科技(300624):万兴科技旗下AI绘画产品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖,可在1分钟内快速生成无版权图片,可为图片内容生产降本增效;旗下视频创意软件万兴喵影已集成AIGC功能,用户在视频剪辑时可智能生成图片素材。
 
4、特发信息(000070):参与了鹏程云脑二期项目,鹏城云脑Ⅱ基于自主可控的国产AI芯片,采用高效能计算体系结构,可提供不低于1000POPS的整机AI计算能力和64PB的高速并行可扩展存储,AI算力处于国际先进水平。
 
5、因赛集团(300781):取得GPT应用技术成果,通过GPT2模型训练开发了自动生成工具。公司的AI创意生成平台因赛引擎,应用ChatGPT技术,集成文案、图像和视频的AIGC功能。
 
6、零点有数(301169):公司基于深度学习算法,以大量文本数据作为训练数据,开发了“分类预测”基础算法模块。在图像识别领域,公司基于大量一手图片作为训练数据,使用深度学习算法开发出暴露垃圾识别、井盖监测、小广告识别等多个基础算法模块。
 
7、视觉中国(000681):探索和运用AIGC技术赋能业务,拥有广泛数据集和图片素材,布局AIGC图片创作;拥有国内最大的视觉内容互联网版权交易平台,整合全球及本土海量优质全面的图片、视频等版权素材内容,是全球最大的同类数字内容平台之一。
 
8、川网传媒(300987):旗下麻辣社区是四川最大的社区新闻论坛。公司对新技术的探索运用高度重视,已经开发了智能机器人小雅,并运用到新闻播报和新媒体产品制作,对标海外BUZZFEED。
 
9、云从科技(688327):公司在视觉、语音、NLP等方向上都在实践类似于ChatGPT的预训练模型+反馈调优的技术路线通过自研的视觉大模型和NLP大模型,大幅提高了算法的生产效率。
 
10、软通动力(301236):软通智核研发项目研发计划开展虚拟对话机器人、深度智能问答架构、领域知识图谱构建等AI核心技术的研究,已初步完成领域命名实体识别服务和工具、意图识别服务、领域词典自动生成工具、知识图谱的管理和展示工具的开发并应用于多个客户的智能客服和知识图谱项目中。
 
11、人民网(603000):与人日报社传播内容认知国家重点实验室共同发布面向内容安全的跨模态视频搜索引擎白泽。
 
12、鸿博股份(002229):ChatGPT和AGC作为人工智能的重要发展方向,在公司发展的范围之内,也有相关产品在研发阶段中。
 
13、江南化工(002226):参股北京光年无限科技有限公司专注于人工智能相关技术的研发和场景应用,已经积累多种算法模型、海量数据、对话语料等,并在积极进行自然语言处理技术方面前沿技术的研究工作。
 
14、捷成股份(300182):公司参股子公司世优科技数字人已经接入ChatGPT,正在通过数字人自身的人设背景等相关数据集,并基于OpenAI来训练这个数字人专有大脑形成个性化模型。
 
15、大胜达(603687):公司智能工厂上线的“AI虚拟厂长”可以实现面向企业内外部数据的智能查询和主动预警,目前有部分对话场景应用了ChatGPT技术,并利用NLP2SQL实现语义转数据的高效查询,助力企业实现数据驱动生产。
 
16、香江控股(600162):全资子公司香江云科技与南沙投资贸易促进局决定建立战略合作伙伴关系,南沙投资贸易促进局支持香江云科技与微软(中国)合作,负责“微软云暨移动技术孵化计划﹣广州云暨移动应用孵化平台”项目的建设运营工作。
 
17、彩讯股份(300634):官方公众号表示ChatGPT等AI技术在彩讯的多个业务领域具备很好的应用可能。
 
18、宝通科技(300031):具有售前售后自动应答回复技术,通过大数据、机器学习、自然语言处理,根据上下文实现语义分析,文本分类,实现自动应答,应用于公司客服系统,自动回复客户留言,提升公司客户服务效率,降低成本。
 
19、飞利信(300287):公司的智能会议版块涉及到ChatGPT技术,主要用于补偿语音自动识别中的语义顺畅。
 
20、九联科技(688609):开展基于远场语音前端处理算法、智能语义NLP、全屋智能语音等关键技术的研发合作,致力于提供智能语音交互一体化、全屋智能语音的解决方案,充分利用“AI+”解决方案,一起为用户提供多场景、多终端、多形式的语音转换服务,促进AI赋能“数智化”应用的落地。
 
21、有棵树(300209):邮件自动回复系统,包括邮箱管理和智能客服模块,主要是自动回复买家在购买商品后经常会询问是否已经发货、货物在哪的情景。通过NPL自然语言分析及训练;关键词句管理及统计;自动回邮规则配置等计算工作量的标记和批量发送邮件,提高客服人员的回邮效率及回邮的及时性。
 
22、华凯易佰(300592):售前售后自动应答回复,通过大数据、机器学习,自然语言处理,根据上下文实现语义分析,文本分类,实现自动应答应用于公司客服系统,自动回复客户留言,提升公司客户服务效率,降低成本。
 
23、鼎汉技术(300011):旗下鼎汉奇辉在智能语音领域主要是针对轨道交通行业智能广播、人机交互、故障听诊等应用场景进行语音合成、语音识别、声纹识别、自然语言处理等技术研发,目前具备基于轨道交通知识库的自然语言处理能力。
 
24、中科信息(300678):公司核心技术团队数十年专注于人工智能领域的研究,在自动推理与定理机器证明领域保持了国际先进水平。
 
25、科大国创(300520):公司基于NLP及知识图谱等知识计算技术,结合行业大数据,积极构建运营商及客服等行业的预训练大模型、行业知识图谱及流程大数据模型,从而实现基于AIGC的智能客服助理、自智网络规建维优策略的自动生成以及行业流程再造等。
 
26、大富科技(300134):子公司大富网络作为公司网络工业设计平台的载体,自主原创了NPL神经元并行计算机语言、ParaEngine分布式3D引擎、生产力工具Paracraft、NPLCAD等。
 
27、汤姆猫(300459):公司子公司Outfit7开发的亲子互动应用可以和用户进行人机交互,能够辦声、模仿、变声,具备了初级形态的人工智能,同时自行开发的高度智能化广告投放系统,每天可收集到约50亿条用户行为数据,自行研发的演进机器学习算法,对用户进行画像,进行精准的广告投放。
 
28、彩讯股份(300634):企业邮箱使用ChatGPT帮助提升企业邮箱的自动回复和自动分类功能。
 
29、科大讯飞(002230):老牌NLP龙头,有希望把ChatGPT做出最好的中文对话系统,也深耕教育、医疗等赛道。
 
30、天源迪科(300047):成立了数字人研究院专门进行AI研发,目前工作聚焦在人工智能NLP自然语言处理细分领域,包括语义理解、语言生成和对话管理等核心组件。
 
31、拓尔思(300229):A股第一家大数据上市公司,持续在自然语言处理技术上做研究。语音智能是公司的核心技术的发展场景。NLP自然语言处理的技术在各个场景中的应用上,不断进行深入的拓展。
 
32、易联众(300096):集成了多项AI技术的“智鼎天宫AI平台”最重要的两项应用:人脸识别和NLP机器智能客服尤其突出。其中人脸识别引擎的比对算法准确率在国际人脸数据集测试中已经超过99.8%。人工智能客服(利用NLP技术)已经在全国20多个省份、100多个城市落地
 
33、中科金财(002657):公司基于WEB3.0规则架构,研发了数字人内容制作引擎、元宇宙场景开发工具,并通过AIGC的企业级内容互动创作平台,实现与中科金财元宇宙数字化营销平台“觅际”融合。
 
34、超图软件(300036):未来GIS实验室正在进行ChatGPT以及其他AIGC领域的实验,正在积极探索相关产品落地,力求将AI作为内容生产力渗透到GIS行业中来。
 
35、天亿马(301178):公司本身已经在使用ChatGPT工具。
 
36、实丰文化(002862):爱豆智能机器人,云脑AI纯语音交互,反应快速,拟人化多轮机智对话。
 
37、神思电子(300479):自主研发的NLP技术和知识工程引擎产品及方案主要在自然人机对话、阅读理解等方面形成核心技术,提升ChatGPT问答系统新路径。
 
38、海天瑞声(688787):在国内AI基础数据服务行业排名第二,市场占有率为13%,公司提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个AI核心领域。
 
39、恒信东方(300081):在ChatGPT专攻的自然语言处理方向上,公司从2018年开始在斯泰同学儿童教育陪伴解决方案上便深耕儿童智能人机对话。公司其他AIGC研发主要应用于元宇宙三维数字资产生产的降本增效。
 
网友评论:
 
极恶贝利亚增强型 :2美元是强迫劳动吗
 
相见盛喜 :非洲每小时2美元,良心企业
 
浅白色的蒲公英 :印度的不是不到1美元吗
 
中华田园恶霸 :肯定是外包啦,一层一层剥削
 
做美羊羊精彩不停 :又不是强迫劳动
 
link_lqc :这种级别的ai训练数据集都是极为庞大的。
(责任编辑:小淘)
免责声明
• 
本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们
0相关评论