关于数据中心,人工智能可以教给我们什么?第 1 部分:概述和技术注意事项
对话式人工智能已经存在近 60 年了。它的第一个应用程序于 1966 年在麻省理工学院开发,远早于个人计算机的出现。[1]读者熟悉的典型应用是最近出现的,人工智能作为聊天机器人运行,增强或至少促进了许多网站上的用户体验。然而,最近,对话式人工智能取得了巨大的飞跃。
去年 11 月,OpenAI 的研究人员发布了名为 ChatGPT 的对话式 AI 测试版本,它允许人和机器以非常类似人类的方式进行交流。[2]询问任何问题,您通常会在几秒钟内得到精心设计的一页答复。我使用 ChaptGPT 学习了许多有关数据中心的知识,并将在下面以及本系列的第 2 部分和第 3 部分中列出这些内容。为了帮助避免有关该技术的错误、不完整的答案和争议,我还引用了其他专业文献和视频来补充 ChatGPT 的内容,并引导读者了解有关其如何创建和工作的更多信息。
使用 ChatGPT
我们可以向 ChatGPT 提出的查询与尝试它的用户群体一样多种多样。[3]发布后的第一周内就有超过 100 万用户对其进行了测试[4],此后已有超过 1 亿人使用过它。这项技术最酷的事情之一是它的交互性——你与它的对话可以朝任何方向、沿着任何切线或进入任何你喜欢的兔子洞,就像你在现实生活中进行的许多对话一样。许多大型语言模型是否会发生这种情况很大程度上(但不完全)取决于您。[5] 例如,众所周知,Bing 的新 ChatGPT 竞争对手 (Bard) 会陷入奇怪的对话,因此您需要确保与大型语言模型的对话保持在正轨上。5
为了充分掌握 ChatGPT 所提供的功能,让您的问题随着您对其内容的反应而变化。当您评价其答案并提出其他问题时,您向其提供的上下文、背景和反馈越多,其响应就越有用和集中。当你想要的时候就停下来,或者稍后再回来获取更多。
为什么使用人工智能来了解数据中心及其工作原理?
为什么要在数据中心这样的话题上使用 ChatGPT?原因很简单,因为数据中心的用例很广泛,需要考虑多个技术、人员配备、业务以及政治和经济问题。这篇文章重点讨论技术和人员问题,而第 2 部分和第 3 部分将分别重点讨论业务和其他问题。如此广泛的主题使得如果不采用许多不同的搜索方法就很难学到很多东西。从 ChatGPT 开始,可以更快地获得大量介绍性信息。
因此,通过使用 ChatGPT,您可以快速有效地学习和传达比您已了解的主题更多的内容。如果您是时间和资金有限的数据科学家、经理或高管,想知道是否/如何投资数据中心以及其优点、缺点和成本是什么,那么您很可能会从与我类似的地方开始 –拥有一些知识,然后寻找更多知识,无论是来自人类、机器还是两者。ChatGPT 非常适合这种情况。
值得注意的是,ChatGPT 坚定地站在人机协作阵营;它不仅仅是机器衍生的。它使用一种称为“人类反馈强化学习”的人工智能形式,根据人类引导的计算机分析产生答案。2换句话说,使用聊天机器人功能,用户输入问题,从 ChatGPT 获得答案,然后告诉 ChatGPT 该答案有多大帮助,最重要的是如何改进答案。这种来回允许提供 ChatGPT 修改其答案所需的信息,以便更好地满足您的需求。这种人机交互的优缺点将在后面以及 OpenAI 的研究2和评论中进行描述。[6]
人工智能关于数据中心的问题
为了了解有关数据中心的更多信息,我首先向 ChatGPT 询问首席转型官应该了解哪些数据中心。我即将在CXOTech 杂志上发表的文章描述了这种交互。接下来,我询问数据中心通常是什么样子以及应该如何配备人员。然后我问,与企业许多其他部分的预算相比,公司的预算通常有多少用于数据中心的使用。下面介绍了结构问题,而本系列的第 2 部分介绍了人员配置、预算和其他业务问题。
存在云存储和混合解决方案等数据中心的替代方案,因此我也要求 ChatGPT 比较这些方案,其答复如下。然后我询问了为数据中心或替代方案融资的构建或购买选项;第 2 部分也对此进行了介绍。
由于数据中心的关键功能是存储数据并帮助用户为复杂分析准备数据,因此我还请 ChatGPT 评论一下使用和不使用数据中心进行高性能计算的能力。其回应如下。
最后,我向 ChatGPT 询问了安全问题、围绕这些问题的一些引人注目的政治和经济争议,以及数据中心在未来 5-10 年可能如何发展。本系列的第 3 部分将讨论这些问题。
我们关于技术的对话
以下缩进的问题和答案几乎是从我与 ChatGPT 的互动中逐字复制的。我没有纠正本节中的任何逻辑或实质性错误,因此您可以从这种交互中看到什么。我确实纠正了几个拼写和语法错误,但没有改变任何回复的含义。我还强调了几个关键短语,使其文本更易于跟踪。我的问题以粗体斜体显示,每个问题后面都有 ChatGPT 的答案。
数据中心有哪些不同类型?存在哪些使用数据中心的替代方案?
数据中心有多种不同类型,每种类型都有其独特的特点和优势:
1. 企业数据中心:这些数据中心由单个组织拥有和运营,用于支持组织的内部 IT 需求。
2. 主机代管数据中心:这些数据中心由第三方提供商拥有和运营,用于容纳多个组织的 IT 设备。
3. 云数据中心:这些是由亚马逊网络服务、微软Azure或谷歌云平台等云提供商拥有和运营的数据中心,并以即用即付的方式提供一系列服务。
4. 边缘数据中心:这些数据中心位于更靠近网络边缘的地方,而不是位于中心位置,数据在边缘生成和使用。边缘数据中心旨在支持低延迟、高带宽应用和服务。
5. 混合数据中心:这是指不同数据中心解决方案的组合,例如混合使用本地、主机代管和基于云的数据中心来满足特定需求。
使用数据中心的替代方案:
1. 云计算:云计算是数据中心的一种流行替代方案,它允许组织将其 IT 需求外包给第三方提供商,并通过互联网按需访问计算资源。
2. 远程工作:随着技术的进步,公司越来越多地支持远程工作,这使得员工可以在任何地方工作,并且不再需要物理数据中心。
3. IoT(物联网)边缘计算:随着连接设备数量的增加和产生的数据量的增加,企业正在实施物联网边缘计算,它使用边缘设备,例如网关、路由器,甚至小型数据中心,在更接近源的位置处理和分析数据,并减少对中央数据中心的需求。
值得注意的是,数据中心类型甚至替代方案的选择将取决于组织的具体要求,例如数据安全性、合规性、成本、可扩展性等。因此,在做出决定之前对组织的需求进行彻底的分析非常重要。
什么是边缘数据中心?
边缘数据中心是一种更靠近网络边缘的数据中心,例如位于城市边缘或远程位置,而不是位于集中位置。通过减少数据必须传输的距离,可以更快、更有效地处理数据。
边缘数据中心通常比传统的集中式数据中心小,可用于支持各种应用,包括物联网 (IoT) 设备、5G 网络和自动驾驶汽车。它们还可以用于支持边缘计算,这是一种分布式计算模型,涉及在数据收集源处或附近处理数据,而不是将其发送到集中位置进行处理。
边缘数据中心的主要优势之一是它们可以减少延迟并提高应用程序和服务的响应能力,因为数据不必传输很远就能得到处理。这对于自动驾驶汽车、虚拟现实和增强现实以及其他低延迟应用等实时应用非常重要。
此外,边缘数据中心还可以提供更高的安全性,因为数据可以在更靠近源的地方进行处理和存储,从而降低数据泄露的风险。它们还可以从集中式数据中心卸载流量,这有助于降低数据传输成本并提高整体网络性能。
数据中心的基础设施是什么样的?
数据中心的基础设施通常包括几个关键组件:
1. 机架:服务器、存储系统和网络设备安装在通常成排排列的机架中。
2. 配电单元 (PDU ):这些单元将电力分配给机架中的设备。
3. 不间断电源(UPS):在停电时提供备用电源,以保持设备运行足够长的时间以执行有序关闭。
4.冷却系统:数据中心会产生大量热量,因此需要冷却系统将温度保持在安全水平。这可能包括空调机组、冷却器和计算机房空气处理器 (CRAH)。
5. 网络设备:这包括用于将服务器和存储系统连接到互联网和组织其他部分的路由器、交换机和防火墙。
6. 管理软件和工具:用于监控和管理数据中心的性能,包括用于监控服务器和存储使用情况以及自动执行备份和软件更新等日常任务的工具。
7. 安全性:物理和电子安全是数据中心基础设施的重要方面,通常包括安全摄像头、生物识别访问控制和消防系统等措施。
所有这些项目都连接在中央网络中,并由数据中心运营团队管理。所有系统均通过电缆、光纤和无线接口连接。
数据中心、数据湖房和数据湖之间有何异同?
数据中心、数据湖屋和数据湖都与数据存储和管理相关,但它们有一些关键的区别。
数据中心是容纳服务器和其他用于存储、处理和管理数据的计算机设备的物理设施。它们通常被组织用来存储和管理自己的数据。
数据湖之家是一种混合方法,结合了数据湖和数据仓库的优点。数据湖屋使用数据湖作为主要存储,但也集成了类似数据仓库的结构和管理功能(例如关系模式),以实现更快的查询处理和更好的治理。
数据湖是一个集中式存储库,允许您存储任意规模的所有结构化和非结构化数据。数据湖旨在处理大量数据,并且可以以其原始格式存储数据,而不强制执行任何结构。这允许灵活的数据摄取和检索,但也需要额外的管理和处理以使数据可用于分析。
综上所述,数据中心是物理设施,数据湖房子是数据湖和数据仓库的混合体,数据湖是所有类型数据(非结构化和结构化)的集中存储。
云计算只是使用别人的数据中心吗?
云计算是一种服务模式,用户可以通过互联网访问和使用共享计算资源,例如服务器、存储系统和软件。这些资源通常由第三方提供商(称为云提供商)拥有和运营,并且通常以即用即付或订阅的方式按需提供给用户。
虽然云计算通常涉及使用云提供商的数据中心,但它并不限于此。云提供商提供一系列服务,包括基础设施即服务 (IaaS)、平台即服务 (PaaS) 和软件即服务 (SaaS),这些都是不同类型的云服务。
IaaS 是一项让客户能够通过互联网访问虚拟化计算资源(例如服务器和存储)的服务。这可以包括使用云提供商的数据中心。
PaaS是一种为客户提供开发、测试和部署软件应用程序的平台,而无需管理底层基础设施的服务。
SaaS 是一种让客户可以通过互联网访问软件应用程序的服务,而无需在自己的计算机上安装或运行应用程序。
因此,总而言之,云计算可以包括使用其他人的数据中心,但它也包含一系列其他服务和技术。
高性能计算或量子计算可以在没有数据中心的情况下完成吗?
高性能计算(HPC)和量子计算是需要强大的硬件和软件资源的计算任务。这两种类型的计算都可以在没有数据中心的情况下完成,但需要专门的设备和大量的投资。
对于 HPC,可以使用强大的工作站或服务器集群,每个工作站或服务器都具有多个处理器和大量内存。这些系统可用于运行 HPC 工作负载,例如模拟和建模,但与专为 HPC 工作负载设计的数据中心相比,它们的效率较低,而且在功耗、冷却和空间方面更昂贵。
对于量子计算来说,运行量子计算任务所需的硬件仍处于开发的早期阶段,尚未推向一般市场。当前的系统通常位于研究机构或专门的数据中心,并且需要通过专门的冷却和电力系统将它们保持在受控条件下。因此,如果没有用于此目的的数据中心,公司不太可能投资专用的量子计算设置。
总之,在技术上可以在没有数据中心的情况下执行高性能计算和量子计算,但通常需要专用设备和大量投资。此外,数据中心通过提供这些任务所需的必要资源、电力和冷却以及物理安全性,提供了一种经济有效的方式来执行这些类型的计算任务。
讨论和限制
去年一月,当我第一次尝试 ChatGPT 时,它让我想起了 20 世纪 60 年代原版《星际迷航》电视剧中詹姆斯·T·柯克船长或斯波克大副经常使用的未来计算机。只是为了好玩,我要求 ChatGPT 提供船员使用计算机的示例,并将其与 ChatGPT 的功能进行对比。它是这样说的:
在《星际迷航》系列中,柯克船长经常使用船上的计算机(称为企业号计算机)来访问信息并执行高级计算。例如,在“哥托斯乡绅”一集中,柯克使用计算机了解哥托斯星球以及居住在该星球上的外星人特雷兰。在另一集中“世界末日机器”中,柯克使用计算机分析一种未知行星毁灭武器的数据,让机组人员找到摧毁它的方法。
ChatGPT是一种可以理解并生成文本的语言模型,但它不具备与企业计算机相同的功能。ChatGPT 可以回答问题、提供信息,并根据从大量训练过的文本中学到的知识生成文本,但它不具备与企业计算机相同水平的高级计算和数据分析能力。它是一种语言模型,能够根据接收到的输入生成类似人类的文本,但它不具备像企业计算机那样执行复杂计算和模拟的能力。
唉,我们正在取得进展,但还没有完全实现!
局限性
关于 ChatGPT 的宣传已经很广泛了,所以让我们在数据中心用例的背景下考虑一下它的一些局限性。
使用 ChatGPT 时的一个关键教训是用其他源材料对其进行补充,以生成更完整的知识集。
例如,当我在Bing搜索中输入本文的标题时,我发现了一篇关于数据中心可以利用的人工智能其他用途的文章。John Edwards 指出了七个,但 ChatGPT 没有详细提及。[7] 引用他的文章,其中包括:
1. 许多不同类型的数据中心可以从使用人工智能中受益...... 但受益最多的通常是大型设施,例如大型企业数据中心、公共云数据中心、托管数据中心和外包数据中心。
2.人工智能帮助数据中心变得更加高效,帮助降低功耗,报告冷却效率低下的情况,并分析关键任务系统的健康状况。
3.人工智能带来更强的数据中心安全性。
4.人工智能可以通过不断监控和调整资源(包括处理、网络和内存)来优化数据中心性能。
5.人工智能将改善基础设施管理。目前,人工智能很快就能预测特定设施何时需要维修、升级和更换。
6. 人工智能正在成为一种强大的数据中心规划工具……例如,用于规划和供应电力资源,以及预测冷却需求。
7. 人工智能将在很少或根本没有人类参与的情况下管理越来越多的数据中心任务。
爱德华兹为每个项目提供了更多背景信息,他的文章非常值得一读。
我还在必应搜索中输入了上述其他问题,有时会发现可能有用的其他材料。示例包括提及不同类型的数据中心、超大规模数据中心(这基本上意味着非常大的数据中心,拥有多达数百万台服务器)[8]以及数据中心所需技能类型的其他特殊性。[9] ChatGPT 没有提到这些。这应该不足为奇,因为 ChatGPT 是一个总结者,而不是人口普查员。它不会计算并列出它找到的所有内容;它只是试图提供我们提出的问题中所引导的关键点的子集。4
接下来,从 ChatGPT 获得的每个答案都仅限于我如何表达我的问题。由于人工智能没有感知能力,因此无法随着对话的进展推断出用户的想法。这些是已知的限制。2 这里的教训是,如果您需要更多背景信息,您应该提供这些背景信息,以便人工智能在您输入问题时考虑。如果您不知道要问什么,请在使用 ChatGPT 之前和之后从值得信赖的顾问和/或其他搜索引擎,或者从同行评审或专业文献中收集信息。
想要深入挖掘其他文本来源的用户可以在 Amazon.com 或其他地方找到几本有关数据中心的书籍。我通过 Bing 搜索数据中心教科书,得到了 18 本书的列表,所有这些书籍都重点关注技术方面。Tess Hanna于 2020 年 9 月 16 日在Medium.com的最佳实践部分发布了一篇文章,其中包含 11 本书的简短列表和简要摘要。[10] 亚马逊只列出了几本教科书,这是选择的另一个原因为您搜索知识提供一张广阔的网络。
ChatGPT 的另一个关键限制是它挖掘的数据主要来自 2021 年及之前。这与 Google、Bing 等包含更多最新信息的搜索引擎形成鲜明对比。4如果用户想要了解有关数据中心或其他主题的更多信息,请咨询他们喜欢的搜索引擎。
最后,对所有语言模型准确性的担忧都已被描述,[11],ChatGPT 也不例外。其开发人员从早期的努力中学到了很多东西,现在通过关注预计更准确的数据库来搜索在线内容进行总结,煽动性或露骨的材料更少,错误信息也更少。这将永远是一项正在进行的工作。
结论
建议读者使用多个平台来查找有关他们感兴趣的任何主题的信息。人工智能在数据中心的应用也不例外。除了 ChatGPT 之外,寻找有关其优缺点的信息以及有关您感兴趣的主题的信息将生成更完整的知识库,从而做出更好的决策。尽管有其局限性,ChatGPT 仍然是一个有用的工具,因为它能够提供一些快速且相当详细的见解,就像它在数据中心方面所做的那样。它不会是完美的,但查询或知识收集过程到底是什么?
关于作者身份的注意事项
最后,关于ChatGPT是否应该被列为专业论文作者的争论正在酝酿之中。一些期刊编辑对此不以为然,因为作者身份的一个关键属性是接受对书面贡献、分析方法、基础理论和其他概念材料的使用以及所提供的任何解释的责任。ChatGPT 不具备人类固有的能力。[12]对于这篇关于数据中心的论文,我对内容承担全部责任,因为我指导 ChatGPT 寻求回答我的问题。尽管如此,我将其列为合著者,因为它开发了大部分文本,因此值得赞扬。读者的方法可能会有所不同,建议他们在使用这项伟大的新技术时考虑这个问题。
参考
1. 聊天机器人的历史和演变,https ://insights.daffodilsw.com/blog/the-history-and-evolution-of-chatbots# :~:text=The%20first-ever%20chatbot%20was%20introduced %20甚至%20之前%20,输出%20根据%20到%20a%20定义的%20设定%20的%20规则。
2. ChatGPT:优化对话语言模型,https: //openai.com/blog/chatgpt/
3. Boyd E. Azure OpenAI 服务的全面可用性扩展了对大型高级 AI 模型的访问,并增加了企业优势,网址为:https ://azure.microsoft.com/en-us/blog/general-availability-of-azure-openai- service-expands-access-to-large-advanced-ai-models-with-added-enterprise-benefits/?utm_source=substack&utm_medium=email
4. Singh S,ChatGPT vs Google:2023 年的终极比较,https: //www.demandsage.com/chatgpt-vs-google/
5. Roose K,《与 Bing 聊天机器人的对话让我深感不安》,https: //www.nytimes.com/2023/02/16/technology/bing-chatbot-microsoft-chatgpt.html
6. ChatGPT:2022年最先进的人工智能聊天机器人,https: //chatgpt.pro/
7. Edwards J,关于数据中心人工智能的 7 件事,CIO,2018 年 12 月 20 日
8. Maysteel Industries,数据中心类型:如何选择合适的数据中心?在https://maysteel.com/blog/types-of-data-centers-how-do-you-choose-the-right-data-center
10. Hanna T. 数据中心主管的 11 本最重要的书籍,https: //solutionsreview.com/backup-disaster-recovery/the-most-essential-books-for-data-center-directors/#:~: text=%2011%20Most%20Essential%20Books%20for%20Data%20Center,正在迁移%20to%20New%20Data%20Centers%20…%20More%20items
11. Radford A,Wu J,child R,等。语言模型是无监督的多任务学习者,https://cdn/openai.com/bette-language-models/language_models_are_unsupervised_multitask_learners.pdf
12. Stokel-Walker C,ChatGPT 被列为研究论文作者:许多科学家不赞成,《自然》,2023 年 1 月 18 日,https: //www.nature.com/articles/d41586-023-00107-z
来源 :
发布 : 2023-06-27
-
微信扫码
关注公众号 -
扫码查看
当前资讯