正在人工智能(AI)快速成长的今天,数据正正在成正的焦点资产。最新的研究了AI锻炼数据的来历问题及其背后的现忧,激发了普遍关心。由跨越50名研究人员构成的「数据溯源打算」(Data Provenance Initiative, DPI)对全球近4000个公共数据集进行了深切审核,成果显示,AI范畴的数据收集和利用不只存正在垄断趋向,还严沉方向文化。AI的进修结果间接依赖于其锻炼数据的质量和多样性。DPI的研究表白,虽然这一范畴的成长敏捷,但数据收集的规范化和通明度却显著畅后。参取研究的MIT研究员Shayne Longpre指出,早正在2010年代初,AI数据集的来历相对多样,包罗了各类文献、演讲和社交。然而,跟着大型言语模子(LLM)和其他多模态AI的兴起,互联网成为了次要数据来历。这一改变不只优化了数据处置的效率,却也导致了数据来历的集中化。目前,约70%的视频模子数据源自YouTube,这使得具有这一平台的科技巨头如谷歌,获得了史无前例的合作劣势。这种数据集中化对于小公司、研究机构甚至通俗开辟者来讲,无疑构成了一种新的壁垒。更为严沉的是,这项研究还指出,当前AI模子锻炼的数据较着方向于,数据集中90%以上来自欧洲和,而非洲数据的比例不脚4%。Hugging Face的首席伦理学家Giada Pistilli对此暗示,英语为从的锻炼数据不只影响了模子的锻炼结果,也使得生成的内容不成避免地向文化倾斜。例如,当用户请成婚礼场景时,输出内容往往仅限于西式婚礼,这让其他文化布景的多样性被轻忽。除了数据,研究还了数据获取过程的复杂性。虽然很多科技公司会选择公开部门模子的代码或权沉,但锻炼数据的通明度几乎没有。数据集常常附带无限的许可条目,其贸易用处,这使得小型开辟者无从选择适合的数据来历。此外,很多科技巨头通过独家和谈获取数据,这种做法进一步加剧了不服等的合作。这种数据的集中化和核心的现象,令人深思。起首,若是绝大大都AI数据集反映的是科技巨头的好处和,那么最终发生的模子可能会影响社会、文化的多个层面。育到,再到公共政策,AI所生成的内容和决策可能无形中推广了单一的世界不雅。跟着AI手艺的不竭前进,特别是正在生成式人工智能以及多模态AI使用的普遍普及,若何确保数据的多样性和公允性成为业界的紧迫问题。学者和政策制定者需要配合勤奋,成立数据共享的尺度取机制,从手艺层面抵制数据垄断现象。为了应对这一挑和,专家们鞭策数据取通明数据的共享模式,以便正在手艺成长的同时,分歧文化取声音的。成立一个更为公允的AI生态系统,需要更多元化的数据来历以及更强的法令框架来利用者的权益。开辟者也应积极摸索若何操纵AI东西(如简单AI)来创做收入,推进小型立异企业的成长,帮力AI的化历程。综上所述,AI成长虽然带来了庞大的潜力,但若何处置其数据来历及其附带的社会文化问题,是将来手艺摸索的严沉课题。我们激励开辟者和企业正在押求手艺立异的同时,推进一个更公允、的人工智能生态圈。通过多元化的数据分享取开辟,人人都能正在AI时代的海潮中,共享立异带来的盈利。