chatGPT、AIOps与未来数据中心建设

2023-08-28 15:09:57 admin 1167

chatGPT火了,有人说它出现的意义相当于人类发出第一封电子邮件,相当于第一个带有超链接的html页面,更有人干脆说它相当于特斯拉发明了电。
  
  chatGPT与小冰的不同在于后者是纯商业化的软件系统,而chatGPT是半开源系统平台。Chat是聊天,GPT是Generative Pre-trained Transformer英文缩写,意思是可生成的预训练迭代器。
  
  “可生成”代表chatGPT是数据集可以自我生成,这是革命性的。过去自然语言处理(NLP)的数据集都是现成的,而如今大量数据由系统自己生成,势必需要更多的存贮,更强大的算力。“预训练迭代器”就是机器的学习机制,其核心是迭代器(Transformer)的算法。
  
  GPT是开源的,现在处于3.0的阶段,4.0呼之欲出,当前流行使用的chatGPT相当于GPT的3.5版本,开源软件系统一般在1.0之后,基本架构就已经不会有太大变化了。迭代器是开源的,在python语言里有现成的软件包,配置稍微好点的机器自己在家里就能练手,具体可参考torch.nn模块。
  
  早期大数据处理采用Hadoop/Map-Reduce,Map-Reducer后来因为性能差的原因逐渐被Spark之类的新系统取代,而Hadoop因为实现不同主机之间内存共用超级目录,至今仍然被广泛使用。大数据技术的成熟为GPT这类人工智能软件系统提供了基本的平台支撑,通过数据平台的无限延展为机器自我训练与学习提供可靠的数据资源保证。
  
  学习自然语言处理建议从python开源包NLTK开始,中文处理可以使用“结巴”进行分词处理,当然如果你进一步想了解自然语言,强烈推荐AIML,这个开源的开发包通过XML可以实现聊天过程中初步的上下文关联。
  
  微软之前的聊天机器人“小冰”已经可以实现高达36次的单一话题人机交互,这对与人类自己来说都是无法想象的。现在的chatGPT在上下文关联方面明显有退步,但在知识面方面、文本生成方面和情感等方面明显有所进步。最重要的是,chatGPT已经开始学会了撒谎。ChatGPT已经可以进行实时的人机视频交互,但人类的撒谎过中的细微表情变化,chatGPT还是没有充分实现。因为机器学习的能力太强,我们已经很难分辨它什么时候在一本正经地说谎了。
  
  受上海市信息中心的委托,2016年5月我在杭州给长三角海关IT部门的技术人员做DevOps(Development Operations全栈式开发)培训,曾经在最后一堂课展望了AIOps(人工智能化运维实践),当时提出十到二十年之内AIOps将会在大型企业,教育、金融、医疗、政府等数据集中管理的地方被广泛采用。
  
  七年过去了,当时刚刚兴起的开源系统Docker(一种容器引擎)现在已经成为复杂数据中心环境下运维的标配,运维过程中产生的海量数据,特别是日志文件和环境状态数据,都是实时的、极其有价值的,GPT系统的成熟为有效使用和及时响应提供了可能。经过测试chatGPT在代码生成、代码调试方面虽然不尽人意,但基本上有模有样了,尤其是它对问题的深层次理解能力已经可以用惊艳来高度评价。
  
  从“软件开发工程师”到“全栈运维工程师”,再到“GPTAI工程师”,是量变至质变的过程。八十年代有些地方还能看到采用纸带打孔进行编程,这在网剧“三体”一开始的镜头里闪现过,九十年代网络与操作系统的逐渐成熟使人类社会一步跨入了信息时代。全栈运维工程师要求工程师不仅懂编程、懂数据库,而且还需要懂网络,懂安全,更重要的是必须有责任心、风险管理意识,因为现在大型的系统运维需要对突发事件进行及时、正确、可靠的反应,大部分系统功能都是在运行过程当中更新与升级的。伴随系统的复杂性、重要性变高,对运维工程师要求也就越来越高,高到几乎超出了人的极限,而GPT系统的产生,为解决这一矛盾提供了可能。
  
  通过GPT,我们可以对GPTAI工程师进行模型训练,在安全方面,我们甚至可以通过攻防模型的训练达到建立数据中心安全系统的完善,最终实现让机器自己管理自己的目标。
  
  甚至在数据中心建设初期,GPT都有可能参与。从选址到建筑、再到设备选型、节能指标实现等等许多方面,今后都可以通过相应的GPT模型来自动生成适用的方案。从某种意义上可以认为,今后的数据中心光有电是不够的,还必须灵魂——那就是人工智能综合应用环境。
  
  据说chatGPT模型与训练主要是在微软的Azure云服务平台上运行的,而且就在今年二月微软把chatGPT变成Azure标准的OPENAI应用服务接口。这又是一个标志性事件,从些数据中心的云服务模式将发生彻底的转变。
  
  在此之前,数据中心的服务是以三类资源共享为基础的,即存贮资源共享(存贮虚拟化)、计算资源(主机虚拟化)和网络资源共享(网络虚拟化),国内数据中心服务基本上都是在开源的Openstack系统基础上进行的深度个性化定制,而今后数据中心的数据模型资源,同时越来越多的信息会由人工智能系统产生,即所谓的AIGC(AI Generated Content),基于Openstack的GPT应用服务估计会很快出现。虽然微软并没有开源chatGPT建模的核心部分,但已经有团队通过逆向软件工程实现了大部分功能,而且开放了源代码。另外GPT2.0是开源的,为学习与研究ChatGPT(GPT3.5)创造了良好的条件。问题是要达到现在chatGPT智能化水平,模型训练所需的算力与数据量是惊人的,只有超大型个企业和组织才有可能做这方面的投入。
  
  过去数据中心运营的数据大都是UGC(User Generated Content用户产生内容),为了有效建模,今后AIGC会随着GPT应用的普及而呈几何基数增长,而且模型、算力、数据的---变了分离是必然的趋势。而模型的本质是在算力、海量数据和特定时间长度加持下形成的有效参数集合。
  
  在这里需要简单介绍一下标量、矢量与张量。可以把标量理解为一维空间的数据集,即产生距离的两个点;而矢量是构成两维空间的数据集,用有方向的两个点可以定义平面上的任意位置;张量是定义三维空间的数据集,用有方向的两个点定义三维世界的任意位置。Transform所做的事比二进制下1+1=10高级不了多少,正如所有的数字都可以用二进制数来表示,所有的语义也可以用Transform生成的数据模型来表达,这当然也包括程序的逻辑,事件处理的优先顺序。人工智能算法的基本要素只有两个特点:一个是简单,一个是重复。所有的信息最后都要回归到它的本质:0和1,而chatGPT就是一个简单重复的过程,分形理论能很好地表现这一过程。
  
  语言是人类高智商进化的前提条件,是人类区别于动物是主要技能。chatGPT的出现,一方面极度刺激了人类的在人工智能领域淘金的热望,另一方面也使大众认识到人工智能时代已经到来。有一部不错的科幻电影《Her》,在现实中已经完全可以实现。而另外一部电影《M3GAN》,在现实中也有可能发生。在电影《Paycheck》中,男主意识到了机器产生智能后带来的灾难,成功关掉了运行中的系统,而未来的我们如果意识到了人类可能面临的机器智能所带来的危机,是否还有能力关掉存在于数据中心的它们?




首页
产品
新闻
联系