ソースコードの標準エンコーディングUTF-8
C++ 23では、ソースコードの標準エンコーディングがUTF-8となりました。
C++ 23に準拠したC++コンパイラは、UTF-8を入力から一貫してサポートすることが義務付けられます。代表的なC++コンパイラ(Clang、GCC、MSVC)は全てUTF-8をサポートしているので、特に何かが変わるということはありません。
ただし、既定のエンコーディング方式や、ソースファイルや実行ファイルがUTF-8エンコーディングであることを示す方法は、コンパイラによって異なります。
Clang
Clangは、UTF-8のみが有効なエンコーディング方式であり、他のエンコーディング、例えばEUC-JPやCP932などをサポートしません。
GCC
既定のエンコーディング方式はUTF-8となっています。他のエンコーディング方式を指定するには、コンパイルオプション-finput-charsetまたは–input-charsetを指定し、値を「=EUC-JP」などとします。実行ファイルでは-fexec-charsetまたは–exec-charsetを指定します(エンコーディング方式の指定方法は同じです)。
MSVC
既定のエンコーディング方式はCP932となっています。UTF-8とするには、コンパイルオプションとして-utf-8を指定します。このオプションは以下の2つのオプションを指定したことと同等です。
- -source-charset:utf-8:ソース文字セットをUTF-8にする
- -execution-charset:utf-8:実行文字セットをUTF-8にする
size_t型のためのサフィックスz
C++ 23では、std::size_t型の整数リテラルを表すためのサフィックスzが使えるようになりました。
C++ 23では、size_t型であることを表すサフィックスzを、整数リテラルに付与できるようになりました。これにより、リテラルがsize_t型であることが明確になるので、型推論がより機能しやすくなります。
size_t型
size_t型は、オブジェクトのサイズを表す符号なし整数のデータ型です。sizeof演算子やstrlen関数の戻り値などとして使用され、プラットフォームに依存してその大きさが決まるため、int型などに比べて型に対する安全性が高まります。
従来は、size_t型をリテラルで表す場合、適切な方法がありませんでした。そのため、以下のリストのケースでコンパイルエラーが発生します。
vector<int> vec{1, 2, 3, 4, 5};
for (auto i = 0u, size = vec.size(); i < size; ++i) {} // コンパイルエラー
for (auto i = 0, size = vec.size(); i < size; ++i) {} // コンパイルエラー
いずれも、変数iをunsigned intまたはintと推論しましたが、sizeはsize_tすなわちunsigned longだということでコンパイルエラーとなります。
これを回避するにはautoを使わず、size_tと型を明確にするしかありませんが、これだと型推論のメリットがなくなってしまいます。
サフィックスz
C++ 23では、サフィックスzによりsize_t型と明示できることで、こういったコンパイルエラーを回避できます。なお、この例でsizeはunsigned longとなるので、iに代入する整数リテラルには符号なし整数であることを表すサフィックスuも必要となります。
vector<int> vec{1, 2, 3, 4, 5};
for (auto i = 0uz, size = vec.size(); i < size; ++i) {} // uzを付与
