일관되게 빠른 속도
이전 도움말에서 WebAssembly를 통해 C/C++ 라이브러리 생태계를 웹으로 가져오는 방법에 관해 알아보았습니다. C/C++ 라이브러리를 광범위하게 사용하는 앱 중 하나는 C++에서 WebAssembly로 컴파일된 다양한 코덱으로 이미지를 압축할 수 있는 Google의 웹 앱인 squoosh입니다.
WebAssembly는 .wasm
파일에 저장된 바이트 코드를 실행하는 하위 수준 가상 머신입니다. 이 바이트 코드는 JavaScript보다 훨씬 더 빠르게 호스트 시스템에 맞게 컴파일되고 최적화될 수 있도록 강력한 유형 지정과 구조를 갖추고 있습니다. WebAssembly는 처음부터 샌드박스 처리와 삽입을 염두에 두고 코드를 실행할 수 있는 환경을 제공합니다.
경험에 비추어 볼 때 웹의 대부분의 성능 문제는 강제 레이아웃과 과도한 페인팅으로 인해 발생하지만 때때로 앱은 계산적으로 비용이 많이 들고 시간이 많이 걸리는 작업을 실행해야 합니다. WebAssembly를 사용하면 이 문제를 해결할 수 있습니다.
핫 경로
squoosh에서 이미지 버퍼를 90도 배수로 회전하는 JavaScript 함수를 작성했습니다. OffscreenCanvas가 이 작업에 가장 적합하지만 타겟팅한 브라우저에서 지원되지 않으며 Chrome에서 약간 버그가 있습니다.
이 함수는 입력 이미지의 모든 픽셀을 반복하고 출력 이미지의 다른 위치에 복사하여 회전을 실행합니다. 4094x4096픽셀 (1,600만 화소) 이미지의 경우 '핫 패스'라고 하는 내부 코드 블록을 1,600만 번 이상 반복해야 합니다. 반복 횟수가 비교적 많음에도 불구하고 테스트한 브라우저 3개 중 2개에서 2초 이내에 작업을 완료합니다. 이 유형의 상호작용에 허용되는 시간입니다.
for (let d2 = d2Start; d2 >= 0 && d2 < d2Limit; d2 += d2Advance) {
for (let d1 = d1Start; d1 >= 0 && d1 < d1Limit; d1 += d1Advance) {
const in_idx = ((d1 * d1Multiplier) + (d2 * d2Multiplier));
outBuffer[i] = inBuffer[in_idx];
i += 1;
}
}
하지만 한 브라우저는 8초가 넘게 걸립니다. 브라우저가 JavaScript를 최적화하는 방법은 매우 복잡하며, 엔진마다 최적화가 다릅니다. 일부는 원시 실행에 맞게 최적화하고 일부는 DOM과의 상호작용에 맞게 최적화합니다. 이 경우 한 브라우저에서 최적화되지 않은 경로가 발생했습니다.
반면 WebAssembly는 원시 실행 속도를 중심으로 완전히 빌드됩니다. 이러한 코드로 여러 브라우저에서 빠르고 예측 가능한 성능을 원하는 경우 WebAssembly가 도움이 될 수 있습니다.
예측 가능한 성능을 위한 WebAssembly
일반적으로 JavaScript와 WebAssembly는 동일한 최대 성능을 달성할 수 있습니다. 그러나 JavaScript의 경우 이 성능은 '빠른 경로'에서만 도달할 수 있으며, '빠른 경로'를 유지하는 것은 종종 까다롭습니다. WebAssembly가 제공하는 중요한 이점은 여러 브라우저에서도 예측 가능한 성능입니다. 엄격한 유형 지정과 하위 수준 아키텍처를 통해 컴파일러는 더 강력한 보장을 제공할 수 있으므로 WebAssembly 코드는 한 번만 최적화하면 되며 항상 '빠른 경로'를 사용합니다.
WebAssembly용 작성
이전에는 C/C++ 라이브러리를 가져와 WebAssembly로 컴파일하여 웹에서 기능을 사용했습니다. 라이브러리의 코드는 다루지 않았으며, 브라우저와 라이브러리 사이에 브리지를 형성하기 위해 소량의 C/C++ 코드를 작성했을 뿐입니다. 이번에는 동기가 다릅니다. WebAssembly의 이점을 활용할 수 있도록 WebAssembly를 염두에 두고 처음부터 앱을 작성하려고 합니다.
WebAssembly 아키텍처
WebAssembly 용으로 작성할 때는 WebAssembly가 실제로 무엇인지 조금 더 자세히 알아두는 것이 좋습니다.
WebAssembly.org의 내용을 인용하자면 다음과 같습니다.
C 또는 Rust 코드를 WebAssembly로 컴파일하면 모듈 선언이 포함된 .wasm
파일이 생성됩니다. 이 선언은 모듈이 환경에서 예상하는 '가져오기' 목록, 이 모듈이 호스트에 사용할 수 있는 내보내기 목록 (함수, 상수, 메모리 청크), 물론 내부에 포함된 함수의 실제 바이너리 명령어로 구성됩니다.
이 문제를 조사해 보기 전에는 깨닫지 못했습니다. WebAssembly를 '스택 기반 가상 머신'으로 만드는 스택이 WebAssembly 모듈이 사용하는 메모리 청크에 저장되지 않는다는 것입니다. 스택은 완전히 VM 내부이며 웹 개발자가 액세스할 수 없습니다 (DevTools를 통하는 경우 제외). 따라서 추가 메모리가 전혀 필요하지 않고 VM 내부 스택만 사용하는 WebAssembly 모듈을 작성할 수 있습니다.
이 경우 이미지의 픽셀에 임의로 액세스하고 이미지의 회전된 버전을 생성할 수 있도록 추가 메모리를 사용해야 합니다. WebAssembly.Memory
의 용도는 아래와 같습니다.
메모리 관리
일반적으로 메모리를 추가로 사용하면 어떻게든 메모리를 관리해야 합니다. 메모리의 어느 부분이 사용됩니까? 어떤 제품이 무료인가요?
예를 들어 C에는 n
개의 연속된 바이트로 구성된 메모리 공간을 찾는 malloc(n)
함수가 있습니다. 이러한 종류의 함수를 '할당자'라고도 합니다.
물론 사용 중인 할당자의 구현은 WebAssembly 모듈에 포함되어야 하며 파일 크기가 증가합니다. 이러한 메모리 관리 함수의 크기와 성능은 사용되는 알고리즘에 따라 상당히 다를 수 있으므로 많은 언어에서는 선택할 수 있는 여러 구현(예: 'dmalloc', 'emmalloc', 'wee_alloc' 등)을 제공합니다.
여기서는 WebAssembly 모듈을 실행하기 전에 입력 이미지의 크기 (및 출력 이미지의 크기)를 확인합니다. 여기서 기회를 포착했습니다. 이전에는 입력 이미지의 RGBA 버퍼를 WebAssembly 함수에 매개변수로 전달하고 회전된 이미지를 반환 값으로 반환했습니다. 이 반환 값을 생성하려면 할당자를 사용해야 합니다. 하지만 필요한 총 메모리 양 (입력 이미지의 두 배, 입력에 한 번, 출력에 한 번)을 알고 있으므로 JavaScript를 사용하여 WebAssembly 메모리에 입력 이미지를 넣고 WebAssembly 모듈을 실행하여 두 번째 회전된 이미지를 생성한 다음 JavaScript를 사용하여 결과를 다시 읽을 수 있습니다. 메모리 관리를 전혀 사용하지 않고도 해결할 수 있습니다.
선택할 수 있는 옵션이 많음
WebAssembly로 변환하려는 원래 JavaScript 함수를 살펴보면 JavaScript 관련 API가 없는 순수 계산 코드임을 알 수 있습니다. 따라서 이 코드를 어떤 언어로든 쉽게 이식할 수 있습니다. WebAssembly로 컴파일되는 3가지 언어(C/C++, Rust, AssemblyScript)를 평가했습니다. 각 언어에 대해 답변해야 하는 유일한 질문은 메모리 관리 함수를 사용하지 않고 원시 메모리에 액세스하는 방법입니다.
C 및 Emscripten
Emscripten은 WebAssembly 타겟용 C 컴파일러입니다. Emscripten의 목표는 GCC 또는 clang과 같은 잘 알려진 C 컴파일러의 드롭인 대체 기능으로 작동하며 대부분 플래그와 호환됩니다. 이는 기존 C 및 C++ 코드를 WebAssembly로 컴파일하는 작업을 최대한 쉽게 만들고자 하는 Emscripten의 사명에 핵심적인 부분입니다.
원시 메모리에 액세스하는 것은 C의 본질이며 포인터가 존재하는 바로 그 이유 때문입니다.
uint8_t* ptr = (uint8_t*)0x124;
ptr[0] = 0xFF;
여기서는 숫자 0x124
를 부호가 없는 8비트 정수 (또는 바이트) 포인터로 변환합니다. 이를 통해 ptr
변수를 메모리 주소 0x124
에서 시작되는 배열로 효과적으로 변환하여 다른 배열과 마찬가지로 사용할 수 있으므로 읽기 및 쓰기를 위한 개별 바이트에 액세스할 수 있습니다. 이 경우 회전을 위해 재정렬하려는 이미지의 RGBA 버퍼를 살펴봅니다. 픽셀을 이동하려면 실제로 한 번에 연속 4바이트(채널당 1바이트: R, G, B, A)를 이동해야 합니다. 이를 더 쉽게 하기 위해 부호 없는 32비트 정수 배열을 만들 수 있습니다. 관례에 따라 입력 이미지는 주소 4에서 시작하고 출력 이미지는 입력 이미지가 끝난 직후 시작합니다.
int bpp = 4;
int imageSize = inputWidth * inputHeight * bpp;
uint32_t* inBuffer = (uint32_t*) 4;
uint32_t* outBuffer = (uint32_t*) (inBuffer + imageSize);
for (int d2 = d2Start; d2 >= 0 && d2 < d2Limit; d2 += d2Advance) {
for (int d1 = d1Start; d1 >= 0 && d1 < d1Limit; d1 += d1Advance) {
int in_idx = ((d1 * d1Multiplier) + (d2 * d2Multiplier));
outBuffer[i] = inBuffer[in_idx];
i += 1;
}
}
전체 JavaScript 함수를 C로 포팅한 후 emcc
로 C 파일을 컴파일할 수 있습니다.
$ emcc -O3 -s ALLOW_MEMORY_GROWTH=1 -o c.js rotate.c
항상 그렇듯이 emscripten은 c.js
라는 글루 코드 파일과 c.wasm
라는 wasm 모듈을 생성합니다. wasm 모듈은 gzip을 최대 260바이트로 하지만 글루 코드는 gzip 후 약 3.5KB입니다. 약간의 조정 작업을 거친 후 글루 코드를 삭제하고 표준 API로 WebAssembly 모듈을 인스턴스화할 수 있었습니다.
C 표준 라이브러리의 아무것도 사용하지 않는 한 Emscripten으로 이 작업을 실행할 수 있는 경우가 많습니다.
Rust
Rust는 풍부한 유형 시스템, 런타임 없음, 메모리 안전성과 스레드 안전성을 보장하는 소유권 모델을 갖춘 새로운 최신 프로그래밍 언어입니다. Rust는 WebAssembly를 핵심 기능으로 지원하며 Rust팀은 WebAssembly 생태계에 많은 우수한 도구를 제공했습니다.
이러한 도구 중 하나는 rustwasm 작업 그룹의 wasm-pack
입니다. wasm-pack
는 코드를 가져와 webpack과 같은 번들러와 함께 즉시 작동하는 웹 친화적인 모듈로 변환합니다. wasm-pack
는 매우 편리한 환경이지만 현재 Rust에서만 작동합니다. 이 그룹은 다른 WebAssembly 타겟팅 언어에 대한 지원을 추가하는 것을 고려하고 있습니다.
Rust에서 슬라이스는 C의 배열과 같습니다. C와 마찬가지로 시작 주소를 사용하는 슬라이스를 만들어야 합니다. 이는 Rust에서 적용하는 메모리 안전 모델에 위배되므로 원하는 대로 하려면 unsafe
키워드를 사용해야 합니다. 그러면 이 모델을 준수하지 않는 코드를 작성할 수 있습니다.
let imageSize = (inputWidth * inputHeight) as usize;
let inBuffer: &mut [u32];
let outBuffer: &mut [u32];
unsafe {
inBuffer = slice::from_raw_parts_mut::<u32>(4 as *mut u32, imageSize);
outBuffer = slice::from_raw_parts_mut::<u32>((imageSize * 4 + 4) as *mut u32, imageSize);
}
for d2 in 0..d2Limit {
for d1 in 0..d1Limit {
let in_idx = (d1Start + d1 * d1Advance) * d1Multiplier + (d2Start + d2 * d2Advance) * d2Multiplier;
outBuffer[i as usize] = inBuffer[in_idx as usize];
i += 1;
}
}
다음을 사용하여 Rust 파일 컴파일
$ wasm-pack build
약 100바이트의 글루 코드가 포함된 7.6KB wasm 모듈 (둘 다 gzip 후)을 생성합니다.
AssemblyScript
AssemblyScript는 TypeScript-to-WebAssembly 컴파일러를 목표로 하는 비교적 신생 프로젝트입니다. 그러나 TypeScript만 사용하지는 않는다는 점에 유의해야 합니다. AssemblyScript는 TypeScript와 동일한 문법을 사용하지만 표준 라이브러리를 자체 라이브러리로 전환합니다. WebAssembly의 표준 라이브러리는 WebAssembly의 기능을 모델링합니다. 즉, 있는 TypeScript를 WebAssembly로 컴파일할 수는 없지만 WebAssembly를 작성하기 위해 새로운 프로그래밍 언어를 배울 필요는 없습니다.
for (let d2 = d2Start; d2 >= 0 && d2 < d2Limit; d2 += d2Advance) {
for (let d1 = d1Start; d1 >= 0 && d1 < d1Limit; d1 += d1Advance) {
let in_idx = ((d1 * d1Multiplier) + (d2 * d2Multiplier));
store<u32>(offset + i * 4 + 4, load<u32>(in_idx * 4 + 4));
i += 1;
}
}
rotate()
함수의 작은 유형 노출 영역을 고려할 때 이 코드를 AssemblyScript로 포팅하는 것은 비교적 쉬웠습니다. load<T>(ptr:
usize)
및 store<T>(ptr: usize, value: T)
함수는 AssemblyScript에서 제공하여 원시 메모리에 액세스합니다. AssemblyScript 파일을 컴파일하려면 AssemblyScript/assemblyscript
npm 패키지를 설치하고
$ asc rotate.ts -b assemblyscript.wasm --validate -O3
AssemblyScript는 약 300바이트의 wasm 모듈과 글루 코드를 제공하지 않습니다. 이 모듈은 기본 WebAssembly API와만 작동합니다.
WebAssembly 포렌식
Rust의 7.6KB는 다른 두 언어와 비교할 때 놀라울 정도로 큽니다. WebAssembly 생성 언어와 관계없이 WebAssembly 파일을 분석하고, 어떤 일이 일어나고 있는지 알려주고, 상황을 개선하는 데 도움이 되는 도구가 WebAssembly 생태계에 몇 가지 있습니다.
Twiggy
Twiggy는 Rust의 WebAssembly팀에서 제공하는 또 다른 도구로, WebAssembly 모듈에서 유용한 데이터를 추출합니다. 이 도구는 Rust 전용 도구가 아니며 모듈의 호출 그래프와 같은 항목을 검사하고, 사용되지 않거나 불필요한 섹션을 확인하고, 모듈의 총 파일 크기에 기여하는 섹션을 파악할 수 있습니다. 후자는 Twiggy의 top
명령어로 실행할 수 있습니다.
$ twiggy top rotate_bg.wasm
이 경우 파일 크기 대부분이 할당자에서 비롯된 것을 확인할 수 있습니다. 코드에서 동적 할당을 사용하지 않으므로 놀라운 일이었습니다. '함수 이름' 하위 섹션도 큰 역할을 합니다.
wasm-strip
wasm-strip
는 WebAssembly 바이너리 도구 키트(줄여서 wabt)의 도구입니다. 여기에는 WebAssembly 모듈을 검사하고 조작할 수 있는 몇 가지 도구가 포함되어 있습니다.
wasm2wat
는 바이너리 wasm 모듈을 사람이 읽을 수 있는 형식으로 변환하는 디스어셈블러입니다. Wabt에는 사람이 읽을 수 있는 형식을 바이너리 wasm 모듈로 다시 변환할 수 있는 wat2wasm
도 포함되어 있습니다. 이러한 두 가지 보완 도구를 사용하여 WebAssembly 파일을 검사했지만 wasm-strip
가 가장 유용했습니다. wasm-strip
는 WebAssembly 모듈에서 불필요한 섹션과 메타데이터를 삭제합니다.
$ wasm-strip rotate_bg.wasm
이렇게 하면 rust 모듈의 파일 크기가 7.5KB에서 6.6KB로 줄어듭니다 (gzip 후).
wasm-opt
wasm-opt
는 Binaryen의 도구입니다.
WebAssembly 모듈을 가져와서 바이트 코드만을 기준으로 크기와 성능을 최적화하려고 시도합니다. Emscripten과 같은 일부 도구는 이미 이 도구를 실행하지만 일부 도구는 실행하지 않습니다. 일반적으로 이러한 도구를 사용하여 추가 바이트 수를 줄이는 것이 좋습니다.
wasm-opt -O3 -o rotate_bg_opt.wasm rotate_bg.wasm
wasm-opt
를 사용하면 gzip 후 총 6.2KB를 남기도록 몇 바이트를 더 줄일 수 있습니다.
#![no_std]
컨설트 및 조사를 거친 후 Rust의 표준 라이브러리를 사용하지 않고 #![no_std]
기능을 사용하여 Rust 코드를 다시 작성했습니다. 이렇게 하면 동적 메모리 할당이 모두 사용 중지되므로 모듈에서 할당자 코드가 삭제됩니다. 이 Rust 파일을 다음으로 컴파일합니다.
$ rustc --target=wasm32-unknown-unknown -C opt-level=3 -o rust.wasm rotate.rs
wasm-opt
, wasm-strip
, gzip 후 1.6KB wasm 모듈을 생성했습니다. 여전히 C 및 AssemblyScript로 생성된 모듈보다 크지만 가볍다고 간주될 만큼 작습니다.
성능
파일 크기만을 근거로 결론을 내리기 전에 파일 크기가 아닌 성능을 최적화하기 위해 노력했습니다. 실적은 어떻게 측정했고 결과는 어땠나요?
벤치마킹 방법
WebAssembly는 하위 수준의 바이트 코드 형식이지만 호스트별 머신 코드를 생성하려면 컴파일러를 통해 전송해야 합니다. JavaScript와 마찬가지로 컴파일러는 여러 단계로 작동합니다. 간단히 말해 첫 번째 단계는 컴파일이 훨씬 빠르지만 느린 코드를 생성하는 경향이 있습니다. 모듈이 실행되기 시작하면 브라우저는 자주 사용되는 부분을 관찰하고 더 최적화되지만 느린 컴파일러를 통해 전송합니다.
이 사용 사례는 이미지를 회전하는 코드가 한 번 또는 두 번 사용된다는 점에서 흥미롭습니다. 따라서 대부분의 경우 최적화 컴파일러의 이점을 얻지 못합니다. 이는 벤치마킹 시 유의해야 할 중요한 사항입니다. WebAssembly 모듈을 루프로 10,000번 실행하면 비현실적인 결과가 나옵니다. 현실적인 수치를 얻으려면 모듈을 한 번 실행하고 단일 실행의 수치를 기반으로 결정을 내려야 합니다.
실적 비교
이 두 그래프는 동일한 데이터를 다른 방식으로 보여주는 것입니다. 첫 번째 그래프에서는 브라우저별로 비교하고, 두 번째 그래프에서는 사용된 언어별로 비교합니다. 대수 시간대를 선택했습니다. 또한 모든 벤치마크에서 동일한 16메가픽셀 테스트 이미지와 동일한 호스트 머신을 사용했다는 점도 중요합니다. 단, 한 브라우저는 동일한 머신에서 실행할 수 없었습니다.
이 그래프를 너무 많이 분석하지 않아도 원래 성능 문제를 해결했다는 것을 알 수 있습니다. 모든 WebAssembly 모듈은 500ms 이내로 실행됩니다. 이는 처음에 설명한 내용을 확인해 줍니다. WebAssembly는 예측 가능한 성능을 제공합니다. 어떤 언어를 선택하든 브라우저와 언어 간의 차이는 최소화됩니다. 정확히 말하자면 모든 브라우저에서 JavaScript의 표준 편차는 약 400ms이지만 모든 브라우저에서 모든 WebAssembly 모듈의 표준 편차는 약 80ms입니다.
난이도
또 다른 측정항목은 WebAssembly 모듈을 만들고 일반에 통합하는 데 들인 노력의 정도입니다. 노력에 숫자 값을 할당하기는 어렵기 때문에 그래프를 만들지는 않겠지만 몇 가지 사항을 지적하고자 합니다.
AssemblyScript는 원활했습니다. TypeScript를 사용하여 WebAssembly를 작성할 수 있을 뿐 아니라 동료들의 코드 검토를 매우 쉽게 할 수 있을 뿐만 아니라 매우 작으며 적절한 성능으로 글루가 없는 WebAssembly 모듈도 생성할 수 있습니다. prettier 및 tslint와 같은 TypeScript 생태계의 도구는 정상적으로 작동할 수 있습니다.
Rust를 wasm-pack
와 함께 사용하는 것도 매우 편리하지만, 더 큰 규모의 WebAssembly 프로젝트에서는 결합이 더 뛰어나고 메모리 관리가 필요합니다. 경쟁력 있는 파일 크기를 달성하기 위해서는 행복 경로에서 약간 벗어날 필요가 있었습니다.
C 및 Emscripten은 매우 작고 성능이 우수한 WebAssembly 모듈을 즉시 만들었지만, 글루 코드로 전환하여 필요한 수준으로 줄일 용기가 없었다면 총 크기 (WebAssembly 모듈 + 글루 코드)가 상당히 커졌습니다.
결론
따라서 JS 핫 패스가 있고 이를 더 빠르게 만들거나 WebAssembly와 더 일관되게 만들려면 어떤 언어를 사용해야 할까요? 성능 질문과 관련하여 항상 그렇듯이 답변은 '상황에 따라 다릅니다'입니다. 그래서 우리는 무엇을 배송했을까요?
사용한 여러 언어의 모듈 크기 / 성능의 절충점을 비교해 볼 때 최선의 선택은 C 또는 AssemblyScript인 것으로 보입니다. Rust를 제공하기로 결정했습니다. 이 결정에는 여러 가지 이유가 있습니다. 지금까지 Squoosh에 제공된 모든 코덱은 Emscripten을 사용하여 컴파일됩니다. WebAssembly 생태계에 대한 지식을 넓히고 프로덕션에서 다른 언어를 사용하고자 했습니다. AssemblyScript는 강력한 대안이지만 프로젝트가 비교적 최근에 개발되었으며 컴파일러가 Rust 컴파일러만큼 성숙하지 않습니다.
Rust와 다른 언어의 파일 크기 차이는 산점 그래프에서 상당히 극단적으로 보이지만 실제로는 그다지 큰 문제가 아닙니다. 2GB가 넘더라도 500바이트 또는 1.6KB를 로드하는 데 10분의 1초도 걸리지 않습니다. Rust도 곧 모듈 크기 면에서 격차를 줄일 수 있기를 바랍니다.
런타임 성능 측면에서 Rust는 여러 브라우저에서 AssemblyScript보다 평균이 더 빠릅니다. 특히 규모가 큰 프로젝트에서 Rust는 수동으로 코드를 최적화하지 않고도 더 빠른 코드를 생성할 가능성이 더 높습니다. 하지만 가장 편안한 방법을 사용하지 못할 이유는 없습니다.
그렇긴 하지만 AssemblyScript는 훌륭한 발견이었습니다. 이를 통해 웹 개발자는 새 언어를 배울 필요 없이 WebAssembly 모듈을 생성할 수 있습니다. AssemblyScript팀은 매우 신속하게 대응하고 있으며 도구 모음을 개선하기 위해 적극적으로 노력하고 있습니다. 향후 AssemblyScript를 계속 주시할 예정입니다.
업데이트: Rust
이 문서를 게시한 후 Rust팀의 닉 피츠제럴드는 파일 크기 최적화에 관한 섹션이 포함된 훌륭한 Rust Wasm 서적을 언급했습니다. 이 안내 (특히 링크 시간 최적화 및 수동 패닉 처리 사용 설정)에 따라 '일반' Rust 코드를 작성하고 파일 크기를 늘리지 않고도 Cargo
(Rust의 npm
)를 사용할 수 있었습니다. Rust 모듈은 gzip 후 370B로 끝납니다. 자세한 내용은 Squoosh에서 제가 연 PR을 참고하세요.