资讯

本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。 作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹 ...
在容器环境中,K8S管理着拥有数个、数百个甚至数千个节点的容器集群,其配置的重要性不可忽略。K8S的配置选项很复杂,一些安全功能并非默认开启,这加大了安全管理难度。如何有效地使用包括Pod安全策略、网络策略、API服务器、Kubelet及其他K8S组件和功能 ...
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU 资源动态调度。 近几年,随着大数据和人工智能技术的迅猛发展,AI 应用场景日益丰富,成为推动产业升级的重要驱动力。云计算作为 AI 发展的坚实基础 ...
12 月 11 日 OpenAI ChatGPT 和 Sora 等服务出现长达 4 小时 10 分钟的宕机,此次宕机只是个小更改导致的,而且这个小更改仅在部署 3 分钟后就被发现出现问题,按理说这么快发现问题应该是很容易解决的。 不过 OpenAI 也出现了和某些公司相同的错误:服务挂了后把 ...
OpenAI宕机因Kubernetes监控服务过载,承诺改进排障及预防措施。 本周四,OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断。 OpenAI 最近宕机频繁。上个月,ChatGPT 突发故障,导致服务中断近 ...