try fix css slow block render

archibate · archibate · commit 9507f71a98f3 · 2024-07-21T23:03:05.000+08:00
diff --git a/docs/extra.js b/docs/extra.js
@@ -19,9 +19,19 @@ for (var i = 0; i < links.length; i++) {
             var to = lut[key];
             if (to !== undefined) {
                 node.data = node.data.replace(key, to);
-            } else {
-                console.log({a: node.data});
             }
         }
     }
 }
+
+var stylesheets = [
+    'https://cdn.jsdelivr.net/npm/@fontsource/noto-sans-sc@5.0.19/index.min.css',
+    'https://cdn.jsdelivr.net/npm/jetbrains-mono@1.0.6/css/jetbrains-mono.min.css',
+    'https://cdn.jsdelivr.net/npm/@fontsource/noto-serif-sc@5.0.13/chinese-simplified-500.min.css',
+];
+for (var i = 0; i < stylesheets.length; i++) {
+    var link = document.createElement('link');
+    link.setAttribute('rel', 'stylesheet');
+    link.setAttribute('href', stylesheets[i]);
+    document.head.appendChild(link);
+}
diff --git a/docs/unicode.md b/docs/unicode.md
@@ -1541,11 +1541,18 @@ void u8print(std::string msg) {
 
 > {{ icon.detail }} 此处 `static int dummy_init =` 是一种静态初始化钩子的小技巧，之后设计模式课程的单例模式中会详细讲解。
 
-> {{ icon.detail }} 更多细节用法见官方文档：https://www.boost.org/doc/libs/1_81_0/libs/locale/doc/html/group__codepage.html
-
 #### 更多功能？！
 
-编码转换只是 `boost::locale::conv` 这个子模块下的一个小功能而已！`boost::locale` 还提供了更多功能，如按照地域语言规范格式化数字、货币、日期、时间等，下一小节中我们继续介绍。完全是 `std::locale` 的上位替代。
+|函数|从|到|
+|----|--|--|
+|utf_to_utf|UTF 系列|UTF 系列|
+|from_utf|UTF 系列|杂牌字符编码|
+|to_utf|杂牌字符编码|UTF 系列|
+|between|杂牌字符编码|杂牌字符编码|
+
+更多细节用法见官方文档：https://www.boost.org/doc/libs/1_81_0/libs/locale/doc/html/group__codepage.html
+
+不可思议的是：编码转换只是 `boost::locale::conv` 这个子模块下的一个小功能而已！`boost::locale` 还提供了更多功能，如按照地域语言规范格式化数字、货币、日期、时间等，下一小节中我们继续介绍。完全是 `std::locale` 的上位替代。
 
 > {{ icon.fun }} Boost 哪里都好，你想要的功能应有尽有。而且不需要 C++20，很低版本的 C++ 也能用。唯一缺点可能就是太肥了，编译慢。
 
@@ -1852,6 +1859,8 @@ zh_CN.UTF-8: 1
 
 要注意的是，用户必须已经安装过该区域设置，程序才能使用 setlocale 设置，否则会出现找不到 locale 的错误。
 
+> {{ icon.detail }} 这几乎导致你没法用除默认外的任何 locale，比如 `"zh_CN.UTF-8"`，因为你不能确定用户有没有安装他。但你可以用 `boost::locale::generator` 凭空生成一个系统里没有安装过的 locale，绕开标准库的限制，稍后介绍。
+
 Linux 用户可以通过 修改 `/etc/locale.gen` 取消注释要启用的语言和编码格式，保存后，运行 `locale-gen` 即可安装所有没注释的语言。
 
 ```bash
@@ -2058,7 +2067,7 @@ int main() {
 2024年 07月 19日 星期五 16时 01分
 ```
 
-#### `std::locale` 对象
+### `std::locale` 对象
 
 C 语言的 `setlocale` 设置的是全局 locale，全局 locale 只有一个，一设就影响所有线程，非常沙雕。因此提倡“不要状态机要对象”的 C++，封装了 `std::locale` 对象。
 
@@ -2123,6 +2132,15 @@ Fri 19 Jul 2024 04:33:39 PM CST
 
 > {{ icon.tip }} 关于 `"%c"`、`"%Y"` 这些格式化字符串的更多详细用法，参见 [`man strftime`](http://man7.org/linux/man-pages/man3/strftime.3.html)。我们作为字符编码的课程不再赘述，之后的时间与日期专题课也会稍微讲一下。
 
+#### `boost::locale::generator` 凭空创建一个用户没安装过的 locale
+
+```cpp
+boost::locale::generator gen;
+auto loc = gen("zh_CN.UTF-8");
+boost::locale::date_time dt = boost::locale::date_time::now(loc);
+std::cout << boost::locale::as::date(dt) << '\n';
+```
+
 ## 宽字符流
 
 之所以把宽字符流放到最后，是因为，首先 `iostream` 本来就是一个失败的设计。
@@ -2172,10 +2190,6 @@ std::string to_os_string(std::string const &u8s) {
 
 这就是为什么宽字符流很糟糕，说是跨平台，跨了个寂寞。
 
-### `wchar_t` 系列函数
-
-TODO
-
 ### `std::wcout` 的使用坑点科普
 
 #### `std::wcout` 必须设了 locale 才能用
@@ -2318,22 +2332,132 @@ C++ 真正的文本流实际上是宽字符流 `std::wifstream`，而指定编
 
 > {{ icon.fun }} 理论上所有的程序都应该像这样，只不过是因为劳保教材从来不提，一口一个 `char []` 就是字符串，搞得 `wchar_t` 在除了 GNU 这种“体制内”环境之外，根本没人用了。现在为了处理中文字符，才闹出了 `char` 当 UTF-8 使这种招数，令人唏嘘。
 
+总之，`.imbue(std::locale("zh_CN.GBK"))` 可以把 `GBK` 设为当前文本文件的编码格式，宽文件流将会按照这个编码和解码所有的字符串。
+
+`std::locale` 的字符串构造函数，他的参数必须是用户系统里已经安装过的 locale（通过修改 `/etc/locale.gen` 和 `locale-gen` 命令安装）。但是，你无法确保用户的系统安装了 `"GBK"` locale。`std::locale("zh_CN.GBK")` 在没有安装 GBK 的用户电脑上运行就会抛出错误表示找不到该 locale。因此，如果要指定按 GBK 读取文件，不建议依赖系统中自带的 `std::locale("zh_CN.GBK"))`，而是调用 `boost::locale::generator` 就地生成一个 locale，这样程序无论系统有没有安装都能运行了：
+
+```cpp
+#include <boost/locale.hpp>
+#include <fstream>
+
+int main() {
+    std::wofstream fout;
+    boost::locale::generator gen;
+    std::locale loc = gen("zh_CN.GBK");
+    fout.imbue(loc);
+    fout << L"你好，世界\n"; // 以 GBK 编码写出文本文件
+}
+```
+
+```
+$ cat build/你好.txt
+��ã���
+$ cat build/你好.txt | iconv -f GBK -t UTF-8
+你好，世界
+$ 
+```
+
+> {{ icon.detail }} 这是因为 `boost_locale` 链接了 `icu`，其内部包含了所有编码格式的字符映射表。`boost::locale::generator` 首先创建了一个 `std::locale`，然后通过虚函数重载的方式把 `std::locale` 对象中的 `std::codecvt` 替换成 `icu` 的映射表。从而让 `std::wofstream` 调用这个 `icu` 的映射函数，实现了 UTF-32 到 GBK 的转换。
+
+此外，你还可以选择覆盖 locale 的部分方面 (facet)，比如在文件编码时，我们只需要用 `"zh_CN.GBK"` 的 `LC_CTYPE` 方面就可以了，其他的例如时间格式、语言信息等，我们还是想保留默认的。为此，我们可以利用 locale 的“杂交”拷贝构造函数，保留老 locale 的绝大部分方面，只替换一个方面为新 locale 的：
+
+```cpp
+std::locale old_loc = std::locale(""); // 环境 locale
+boost::locale::generator gen;
+std::locale new_loc = gen("zh_CN.GBK"); // 全 GBK locale
+std::locale loc = std::locale(old_loc, new_loc, std::locale::ctype); // 杂交：继承 old_loc 的其余全部，只替换掉 LC_CTYPE 部分为 new_loc 的
+fout.imbue(loc);
+```
+
 ### locale 用于字符编码转换
 
-#### C 语言标准库的字符编码转换
+```cpp
+// 以 loc 规定的编码，把内码编码成外码
+std::string narrow(std::locale const &loc, std::wstring const &wstr) {
+    // use_facet 函数获得 locale 在字符转换 方面的 facet
+    auto const &cvt = std::use_facet<Codecvt>(loc);
+    std::string str(wstr.size() * 4, '\0');  // 预留 4 倍空间
+    wchar_t const *from_next;
+    char *to_next;
+    std::mbstate_t state{};
+    auto res = cvt.in(state, wstr.data(), wstr.data() + wstr.size(), from_next, str.data(), str.data() + str.size(), to_next);
+    if (res == Codecvt::ok) {
+        // 转换成功
+        str.resize(to_next - str.data());
+        return str;
+    } else if (res == Codecvt::partial) {
+        // 转换部分成功
+        str.resize(to_next - str.data());
+        return str;
+    } else {
+        // 转换失败
+        return "";
+    }
+}
 
-TODO
+// 以 loc 规定的编码，把外码解码成内码
+std::wstring widen(std::locale const &loc, std::string const &str) {
+    // use_facet 函数获得 locale 在字符转换 方面的 facet
+    auto const &cvt = std::use_facet<Codecvt>(loc);
+    std::wstring wstr(str.size(), L'\0');  // 预留空间
+    char const *from_next;
+    wchar_t *to_next;
+    std::mbstate_t state{};
+    auto res = cvt.out(state, str.data(), str.data() + str.size(), from_next, wstr.data(), wstr.data() + wstr.size(), to_next);
+    if (res == Codecvt::ok) {
+        // 转换成功
+        wstr.resize(to_next - wstr.data());
+        return wstr;
+    } else if (res == Codecvt::partial) {
+        // 转换部分成功
+        wstr.resize(to_next - wstr.data());
+        return wstr;
+    } else {
+        // 转换失败
+        return L"";
+    }
+}
+```
 
-#### C++ 标准库的字符编码转换
+```cpp
+std::wstring wstr = L"你好";
+std::cout << narrow(std::locale("zh_CN.GBK"), wstr);
+```
 
-TODO
+不过，我们都有更方便的 `boost::locale::conv` 了，还何必还用这么繁琐的 `std::locale` 呢？所以我是不推荐再用这破玩意，无论是易用性还是扩展性都是 Boost 完胜。
+
+### C 语言中的 `wchar_t` 系列函数
+
+对于所有的 `strcpy`、`strcmp`、`strlen` 这类 `str***` 系函数，都有一个相应的 `wcs***` 函数。
 
-> `wchar_t`、`char16_t`、`char32_t` 之间的转换，可以用 `std::mbrtoc16`、`std::mbrtoc32`、`std::c16rtomb`、`std::c32rtomb` 函数。
+例如 `wcscpy`、`wcscmp`、`wcslen`。
 
-### C++ 字符串编码转换 `<codecvt>`
+它们的原型如下：
+
+```c
+wchar_t *wcscpy(wchar_t *dest, const wchar_t *src);
+int wcscmp(const wchar_t *s1, const wchar_t *s2);
+size_t wcslen(const wchar_t *s);
+```
+
+它们的作用和 `str***` 系函数一样，但是它们操作的是 `wchar_t` 字符串。
+
+对于所有的 `fputc`、`printf`，`fprintf`，`fgets` 这类操作文件的函数，也都有一个配套的 `fw***` 函数。
+
+第一次使用过这些函数后，`FILE *` 将会被“宽化”（`fwiden`）。宽化的文件流今后将只能输入宽字符串。
+
+> {{ icon.tip }} 但是，既然 C++ 已经有 `std::wstring`，就不建议再学 C 语言 `L'\0'` 结尾字符串了。
+
+#### C 语言标准库的字符编码转换
 
 TODO
 
+#### C++ 标准库的字符编码转换 `<codecvt>`
+
+`wchar_t`、`char16_t`、`char32_t` 与 `char` 之间的转换，可以用 `std::mbrtoc16`、`std::mbrtoc32`、`std::c16rtomb`、`std::c32rtomb` 函数。
+
+然而，又臭又长，用封装好的 `boost::locale::utf_to_utf/from_utf/to_utf/between` 不香吗？
+
 <!--
 //=== 跨平台软件何去何从？
 //
@@ -2935,6 +3059,8 @@ COW 字符串的缺点是：当你写多线程并发时，本来多线程只读
 
 ### 字符的显示宽度计算
 
+TODO
+
 ### Grapheme
 
 TODO
diff --git a/examples/locale_conv.cpp b/examples/locale_conv.cpp
@@ -0,0 +1,62 @@
+#include <boost/locale.hpp>
+#include <filesystem>
+#include <fstream>
+
+// 外码类型：char
+// 内码类型：wchar_t
+// 状态类型：std::mbstate_t
+using Codecvt = std::codecvt<char, wchar_t, std::mbstate_t>;
+
+// 以 loc 规定的编码，把内码编码成外码
+std::string narrow(std::locale const &loc, std::wstring const &wstr) {
+    // use_facet 函数获得 locale 在字符转换 方面的 facet
+    auto const &cvt = std::use_facet<Codecvt>(loc);
+    std::string str(wstr.size() * 4, '\0');
+    wchar_t const *from_next;
+    char *to_next;
+    std::mbstate_t state{};
+    auto res = cvt.in(state, wstr.data(), wstr.data() + wstr.size(), from_next, str.data(), str.data() + str.size(), to_next);
+    if (res == Codecvt::ok) {
+        // 转换成功
+        str.resize(to_next - str.data());
+        return str;
+    } else if (res == Codecvt::partial) {
+        // 转换部分成功
+        str.resize(to_next - str.data());
+        return str;
+    } else {
+        // 转换失败
+        return "";
+    }
+}
+
+// 以 loc 规定的编码，把外码编码成内码
+std::wstring widen(std::locale const &loc, std::string const &str) {
+    // use_facet 函数获得 locale 在字符转换 方面的 facet
+    auto const &cvt = std::use_facet<Codecvt>(loc);
+    std::wstring wstr(str.size(), L'\0');
+    char const *from_next;
+    wchar_t *to_next;
+    std::mbstate_t state{};
+    auto res = cvt.out(state, str.data(), str.data() + str.size(), from_next, wstr.data(), wstr.data() + wstr.size(), to_next);
+    if (res == Codecvt::ok) {
+        // 转换成功
+        wstr.resize(to_next - wstr.data());
+        return wstr;
+    } else if (res == Codecvt::partial) {
+        // 转换部分成功
+        wstr.resize(to_next - wstr.data());
+        return wstr;
+    } else {
+        // 转换失败
+        return L"";
+    }
+}
+
+int main() {
+    std::wstring s = L"日本語";
+    std::locale loc = std::locale("");
+    // 用 facet 来转换字符串
+    myfacet.i(s[0]); // 转换宽字符到内码
+    myfacet.narrow(s[0], '?'); // 转换内码到宽字符
+}
diff --git a/examples/locale_gen.cpp b/examples/locale_gen.cpp
@@ -0,0 +1,11 @@
+#include <boost/locale.hpp>
+#include <filesystem>
+#include <fstream>
+
+int main() {
+    std::wofstream fout(std::filesystem::path(L"你好.txt"));
+    boost::locale::generator gen;
+    std::locale loc = gen("zh_CN.GBK");
+    fout.imbue(loc);
+    fout << L"你好，世界"; // 按 GBK 写出文本文件
+}
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -37,9 +37,6 @@ extra_javascript:
   - https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.0/MathJax.js?config=TeX-AMS-MML_HTMLorMML
 extra_css: 
   - extra.css
-  - https://cdn.jsdelivr.net/npm/@fontsource/noto-sans-sc@5.0.19/index.min.css
-  - https://cdn.jsdelivr.net/npm/jetbrains-mono@1.0.6/css/jetbrains-mono.min.css
-  - https://cdn.jsdelivr.net/npm/@fontsource/noto-serif-sc@5.0.13/chinese-simplified-500.min.css
 markdown_extensions:
   - extra
   - tables

Original file line number	Diff line number	Diff line change
`@@ -19,9 +19,19 @@ for (var i = 0; i < links.length; i++) {`
`19`	`19`	`var to = lut[key];`
`20`	`20`	`if (to !== undefined) {`
`21`	`21`	`node.data = node.data.replace(key, to);`
`22`		`- } else {`
`23`		`- console.log({a: node.data});`
`24`	`22`	`}`
`25`	`23`	`}`
`26`	`24`	`}`
`27`	`25`	`}`
	`26`	`+`
	`27`	`+var stylesheets = [`
	`28`	`+ 'https://cdn.jsdelivr.net/npm/@fontsource/[email protected]/index.min.css',`
	`29`	`+ 'https://cdn.jsdelivr.net/npm/[email protected]/css/jetbrains-mono.min.css',`
	`30`	`+ 'https://cdn.jsdelivr.net/npm/@fontsource/[email protected]/chinese-simplified-500.min.css',`
	`31`	`+];`
	`32`	`+for (var i = 0; i < stylesheets.length; i++) {`
	`33`	`+ var link = document.createElement('link');`
	`34`	`+ link.setAttribute('rel', 'stylesheet');`
	`35`	`+ link.setAttribute('href', stylesheets[i]);`
	`36`	`+ document.head.appendChild(link);`
	`37`	`+}`
-Original file line number
+Diff line change
   - https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.0/MathJax.js?config=TeX-AMS-MML_HTMLorMML
 extra_css:
   - extra.css
 -  - https://cdn.jsdelivr.net/npm/@fontsource/[email protected]/index.min.css
 -  - https://cdn.jsdelivr.net/npm/[email protected]/css/jetbrains-mono.min.css
 -  - https://cdn.jsdelivr.net/npm/@fontsource/[email protected]/chinese-simplified-500.min.css
 markdown_extensions:
   - extra
   - tables