タグ 4バイト文字
人気順 5 users 50 users 100 users 500 users 1000 users(1 - 3 / 3件)
UTF-8の4バイト文字「土の異体字」を処理してくれない - TIM Labs
今回は突然だが、文字コードの話をする。 というのは、ちょっとPythonでAI日本語処理らしきことをやっていたら、引っかかってしまったからである。 図に、3つの土を、そのUTF-8のコードと共に示す。 引っかかった文字は土の異体字の一つの下図の右端の字である。 今では多くのソフトがUTF-8を標準として採用し、たとえ英語圏で開発されたソフトでも日本語処理に困らないことが多い。 しかし、それは、3バ... 続きを読む
絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama|note
UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて... 続きを読む
Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた | 徳丸浩の日記
以前の記事 CMS四天王のバリデーション状況を調査したところ意外な結果になった で報告したように、Joomla!はログイン名の制限が非常にゆるやかになっています。であれば、 続きを読む
(1 - 3 / 3件)