本文章只是讲实现方案，并不会涉及具体的代码上线，如果你想参考代码以及详细的部署流程，可以参考该项目：s3-image-handler

1. 前言

不同于国内的很多对象存储服务，AWS S3 并不提供图像处理的服务，需要用户使用 Lambda 函数或者 EC2 搭建图片缩放服务，这就使用用户有比较高的使用门槛了，但是相当于国内云服务厂商提供的黑盒图像处理服务，AWS Lambda 也有着透明、高兼容度、高可编程性的优势。

首先我们要明确一下最终的实现需求，需要达到以下的功能：

请求携带图像处理参数访问图片后返回相应的处理好的图片；
处理过的图片要存储到 S3 上，防止重复的图片处理请求；
Lambda 函数要部署到全球边缘节点，而不只是一个固定的地区，以加快用户的调用速度；
支持 CloudFront 缓存，加快用户访问；
需要支持自动转换格式，如果用户的浏览器支持 webp 则自动请求 webp 资源

那么接下来我们将逐步实现它。

2. 先来个简单的架构吧

我们先假设搭建了一个图片存储服务，那么当用户每次发起请求时，请求都会经过一个 Image Handler 服务（我们暂不考虑其具体实现），其相当于一个中间人的角色，如果访问的图片存在于 S3 上，那么 Image Handler 就将图片原封不动的返回给用户。

但是如果我们为图片添加一些格式转换的参数，比如说请求 image.jpg__op__format,f_webp 代表获取 image.jpg 的 webp 格式的图片，那么经过 Image Handler 这个中间服务时候就会执行如下流程：

Image Handler 尝试获取 image.jpg__op__format,f_webp 文件，结果文件不存在；
Image Handler 去除格式转换参数，请求 image.jpg 文件，成功获取文件；
Image Handler 解析格式转换参数，并调用图像处理工具对图片进行格式转换；
Image Handler 将转换好格式的图片上传至 S3；
1. 此时，S3 会同时存在 image.jpg 和 image.jpg__op__format,f_webp 两个文件。
Image Handler 重定向用户请求，让用户重新获取 S3 资源。

整体流程图如下：

那么接下来我们就由简入繁，尝试实现以下这套架构。

3. 使用 API Gateway + Lambda 实现 ImageHandler

初始架构

上节我们文中提到的 Image Hanlder 就可以使用 Lambda 函数来实现，我们可以加上一个 API GateWay 服务来用于触发 Lambda 函数，那么架构图就会变为：

这个与我们上面的架构图差别不大，只是将 Image Handler 由 Lambda 和 API Gateway 相结合而实现。其中，API Gateway 只作为 Lambda 函数的触发器，用户请求图片时就直接请求 API Gateway 的访问 url，并将访问文件的路径作为 path 参数拼接入 url，如 api-gateway?path=image.jpg__op__format,f_webp，然后 Lambda 函数收到会从 API Gateway 发来的事件，并提取 url query 中的文件路径，执行获取图像、处理图像、返回图像等上节我们提到的操作。

你可能会有顾虑，如果参数越来越多，在 s3 上保存的对象文件名（也就是 key）会不会因为过长而无法处理？其实不必过分担忧，s3 标称可以允许 1024 个字符长度的 key 值，经过测试，就算文本是纯中文也支持300~350 个中文，而操作系统的最长文件名一般为 255 个，并不足矣达到让 S3 都无法处理文件名的地步。

优化架构

但是我们会发现，如果用户直接请求 API Gateway 的话，那么每次请求都会触发 Lambda 函数的执行，而 Lambda 函数检查文件是否存在的这一行为也会消耗大量的时间。

因此我们需要优化一下架构：首先让用户请求 S3，如果 S3 文件不存在就使用 307 临时重定向，让用户访问 API Getway 的 url，然后再触发 Lambda 函数。此时可以确定的是用户访问的是不存在于 S3 的图片，因此 Lambda 函数无需检查图片是否存在，直接从 S3 中获取原始图片并处理，处理完成后使用 301 永久重定向让用户重新从 S3 获取由 Lambda 处理好的图片，下次请求用户遍也无需经过 Lambda 函数，这样大大提升了用户的访问效率。修改后的架构图如下：

架构实现

上面的架构在 Github 上有完整的实现参考：s3-resizer，与上面描述唯一不一样的为图像处理参数的处理，该函数只专注于图片缩放，想要其他的功能需要自己实现。

需要值得注意的一点是，S3 如果查找不到图片返回 307 重定向的这个行为，S3 默认是无法实现的，需要开启 S3 的 静态网站托管服务，这样就可以改写资源 404 时的行为，让 S3 重定向到 API Gateway，具体
的配置流程可以在 s3-resizer 项目的 README 中查看。

架构缺陷

其实这个架构是有明显的缺陷的，总结为以下几点：

开启静态网站托管后，AWS 不支持 https 访问，要想开启 https 需要自己的域名，参考；
过多的重定向，如果某个图片不存在，则需要三次重定向才能获取到图片，这个过程在高并发的资源请求下简直是灾难；
CloudFront 加速比较麻烦；
Lambda 函数和 API Getway 只能部署在固定的地区，如果用户请求来自其他地区，函数响应速度将会收到影响；
这个架构无法实现自动 webp。

如果不需要优化多区域访问速度的话，这个架构已经可以应对一些简单的项目了，但是多次重定向、Lambda 函数无法全球化的问题确实是比较致命的，因此我们接下来将探讨另外一种实现方案，可以把上面的问题都解决掉。

3. 使用 Lambda@Edge 实现 ImageHandler

Lambda@Edge 简介

Lambda@Edge 是 AWS 的边缘计算服务，不同于普通的 Lambda 函数：普通的 Lambda 函数只能部署在单个区域的节点上，然后用户通过设置的触发器（如 API Gateway）来触发该函数；而 Lambda@Edge 可以借助 CloudFront 部署在全球的边缘节点上，当用户访问某个与其物理位置最接近的 CloudFront 分配时，就会触发部署在其上面的 Lambda@Edge 函数。

由于 Lambda@Edge 完全依托于 CloudFront，其触发流程也是围绕着用户请求某个 CloudFront 节点的生命周期，具体如下：

当用户访问到某个 CloudFront 分配且在 CloudFront 检查缓存之前，首先会触发 viewer request；
当 CloudFront 没有发现缓存资源时候，按照回源规则向上访问时（如当 S3 上存放的图片没有被 CloudFront 缓存，那么就会回源访问到 S3），就会触发 origin request；
当 CloudFront 收到来自源的响应之后、在缓存行为发生之前，会触发 origin response；
当 CloudFront 将用户请求的资源返回前，会触发 viewer response。

Lambda@Edge 可以部署在以上四个 CloudFront 资源请求的时间点，并且可以在 request 阶段修改用户的请求，在 response 阶段修改服务器返回的响应。

但是 Lambda@Edge 是有部署条件的：

只有弗吉尼亚北部（us-east-1）上的 Lambda 函数才能部署到 CloudFront 上，成为 Lambda@Edge 函数，其他地区的函数触发器都不包含 CloudFront；
viewer request 和 viewer response 的资源配额较小，编程时需要额外注意，响应时长不得超过 5s，内存分配不得超过 128M，Lambda 及其依赖包大小不得超过 1M；
如果需要篡改响应，那么只能返回给客户端纯文本或者 base64 编码；
由于函数经过 CloudFront，到 OriginResponse 后就会被移出掉客户端的请求头字段，如果需要透传，则需要手动在 CloudFront 的 行为 面板中单独配置 源请求策略；
更多功能限制可以查看这里；
更多配额限制可以查看这里。

使用 Lambda@Edge 实现 ImageHandler

首先，我们要将 S3 接入 CloudFront，这样才能进一步接入 Lambda@Edge，关于具体如何接入，可以参考这篇文章。

将 S3 接入 CloudFront 之后，我们再来看一下 CloudFront 的工作机制，与所有的 CDN 服务一样，当 CloudFront 没有缓存时，就会触发回源，如果有缓存且缓存没有失效，就不会触发回源，而是直接从服务器节点获取资源：

那么 Lambda@Edge 函数的四个触发时间点，就分布在下图所示的四个阶段：

以上的流程图中演示的是用户请求了一张 S3 存在的图片，那么假如用户请求了一张携带了图片处理参数的图片（假设携带了参数的图片不存在于 S3 上），当请求会回源到 S3，然后触发 403 Forbidden（PS：S3 没有 404 的状态码，无权限和文件不存在都是 403），我们所要做的就是 修改这次回源响应 ，让回源返回的是一张处理好的图片，而不是 403 状态码。

经过上面的流程分析，很容易发现最合适操作的位置就是 origin response 阶段，因为在这一阶段可以直接获取到 S3 的回源结果：如果是一个 200 的状态码，就说明用户请求的是原始图片，或者带参数的图片已经存在于 S3 中；反之，如果是一个 403 状态码，就说明图片不存在，此时 Lambda 函数就开始进行获取原图、处理图片、上传图片、返回响应的这一系列行为。

以用户请求 image.jpg__op__format,f_webp 这一携带了图片处理参数的请求为例，经历了如下流程：

如果用户请求了一个原始图片不存在，但是携带了图片操作参数的图片（如 error.jpg__op__format,f_webp），origin response 阶段部署的 Lambda 函数依旧会工作，但由于 Lambda 函数并不确定原始图片是否存在，仍然会尝试二次向 S3 请求原始图片来确认，如果原始图片确实不存在，那么 Lambda 函数则仍返回原响应（403），工作流程如下：

添加自动 webp 的功能

webp 格式在提升 Web 图片传输效率上有很大的优势，能将图片进一步压缩，不仅节省 S3 的存储空间以及 CloudFront 的流量消耗，更能页面更快的展现给用户，在上面的示例中，我们请求 image.jpg__op__format,f_webp 的目的就是为了指定获取 webp 的图片而不是原图。

但是对于 webp 的支持上，Safria 浏览器极其拉胯，直到 2022 年的 Safria 16 才完全支持，为了某一小撮浏览器的兼容性，我们并不能大放手脚的全站使用 webp。从前端开发来讲，虽然完全可以从前端写一个判断函数来判断用户浏览器是否兼容 webp 而编程式的来获取不同格式的图片，但这样做并不是完美的，比如 SSR 场景来说，在客户端和服务端都要写两套判断代码，简直徒增工作量。

那么最优雅的解决方案还是从我们刚才写的 Lambda 函数入手，新增一个 f_auto 参数，比如当用户请求 image.jpg__op__format,f_auto 时，通过用户的 request header 的 accept 字段来判断用户的浏览器是否支持 webp，如果支持则返回格式为 webp 的图片，否则返回原图。设想很美好，但是当我们按照这个思路去完善 origin response 阶段部署的 Lambda 函数时却很容易发现走不通，会出现两个致命的问题：

从 origin response 阶段的 Lambda 函数事件中，并不获取到 accept 请求头，因为该请求是从 CloudFront 转发过来的，转发过程中 CloudFront 会移除掉部分客户端请求头。
就算我们在 CloudFront 中进行了配置，允许 accept 透传到 origin response 阶段，如果判断出来用户支持 webp，那么就会生成一张名为 image.jpg__op__format,f_auto 格式为 webp 的图片上传到 S3。但当下一个用户浏览器不支持 webp 时，请求的仍为 image.jpg__op__format,f_auto 就会获取到由上个用户生成的 webp 格式的图片。也就是说，在 origin response 阶段写的自动格式判断逻辑只能满足首个用户的浏览器需求，后续的用户请求过来的图片都是首个用户触发生成的图片。

因此，我们不可能通过完善 origin response 的 Lambda 函数来实现自动 webp 的功能。但是我们还可以考虑部署于其他位置的 Lambda@Edge 函数来实现这一功能，还记得 Lambda@Edge 的能力吗？不仅可以修改回源响应，更能在 request 阶段修改用户请求。假如我们在 request 阶段判断用户的浏览器是否支持 webp，如果支持的话就将用户请求改为 image.jpg__op__format,f_webp，反之则将用户请求改为 image.jpg 使用户请求原图，这样后续 origin response 处部署的 Lambda 函数就仍只需要关注图片处理参数即可。

但是可以修改用户请求的时间点有两处，一处是 viewer request，另一处则是 origin request：

具体应该使用哪个呢？答案是 viewer request。

因为 origin request 只会在 CloudFront 不存在缓存进行回源查找时才会触发，假如自动 webp 的逻辑放在此处，一旦某个使用了支持 webp 格式浏览器的用户访问了携带了 f_auto 参数的图片，经过图片处理函数的操作后 CloudFront 就会缓存上 webp 格式的图片；后续假如来了一个使用不支持 webp 格式浏览器的用户访问了该图片，因为存在缓存，所以回源过程并不会触发， origin request 自然也不会触发，该用户只会获取到 CloudFront 上缓存的 webp 格式的图片。

但是 viewer request 却不同，因为其位于用户访问 CloudFront 的阶段上，因此不论 CloudFront 是否有目标图片的缓存，viewer request 始终会触发，那么我们只需要在 viewer request 阶段部署一个 Lambda 函数来根据用户的请求头判断用户使用的浏览器是否支持 webp，根据判断结果修改用户的请求 uri，就可以实现自动 webp 的功能，具体流程如下：

架构优化

上面只是演示了最基础的实现方案，虽然已经可以投入使用了，但这个架构还有一定的优化空间，具体如下，可以进行参考：

在 origin response 处理完图片后，由于收到限制，只能将返回的图片编码为 base64 返回，浏览器必须等待所有的数据都返回才会渲染图片，而不是像普通图片那样在请求加载时浏览器就已经开始渲染图片。这个对于弱网环境效果尤为明显，因此建议在 origin response 处理后，返回的响应字段里添加 cache-control: no-cache, no-store, must-revalidate，这样 CloudFront 上就不会缓存首次请求触发的 base64 图片，而是等待缓存下次请求的正常图片。
origin response 改写的响应是有大小限制的，base64 编码后的大小不得大于 1.33M。如果转换后的图片大小超过这个限制，可以使用重定向，让服务端重新请求资源，此时请求的就是从 S3 中拿的资源了。
在图片处理前，在 Lambda 函数中会去尝试下载原始图片，应该尽量减少这一行为的触发，除了单纯的判断 S3 上并不存在已经处理的图片外，还应该判断用户的请求是否是获取图片的请求、请求是否携带了正确的图片处理参数等。
S3 无法查找图片和权限不足返回的都是 403 状态码，如果某个路径下的资源不允许普通用户读取，那么图片处理函数中一定要对其进行特殊处理，不能一昧的把 403 作为图片不存在的状态码来处理，否则会造成权限泄露。推荐在使用该架构时，bucket 中所有内容的权限都是统一的。

这些优化项在 s3-image-handler 已经处理。

架构缺陷

虽然当前的架构已经满足了我们的需求，但是其还是存在着一些无法避免的缺陷，需要开发者知悉：

权限缺陷：需要注意防止越权操作；
性能缺陷：图片过大处理时间会很长；
无法避免的上传时长等待：图片转换后 Lambda 函数需要等待上传函数执行完成才能返回给客户端响应，由于 Lambda 函数的限制，将上传操作放进异步线程先返回客户端响应会导致上传行为失败（实际上异步的上传任务是被挂起了，但是在高并发场景下会因为 Lambda 函数的动态扩展而销毁上传任务）；

1. 前言

2. 先来个简单的架构吧

3. 使用 API Gateway + Lambda 实现 ImageHandler

初始架构

优化架构

架构实现

架构缺陷

3. 使用 Lambda@Edge 实现 ImageHandler

Lambda@Edge 简介

使用 Lambda@Edge 实现 ImageHandler

添加自动 webp 的功能

架构优化

架构缺陷

参考引用

1. 前言