はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 4バイト文字

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 3 / 3件)
 

UTF-8の4バイト文字「土の異体字」を処理してくれない - TIM Labs

2018/04/08 このエントリーをはてなブックマークに追加 31 users Instapaper Pocket Tweet Facebook Share Evernote Clip UTF-8 TIM Labs Python 標準 異体字

今回は突然だが、文字コードの話をする。 というのは、ちょっとPythonでAI日本語処理らしきことをやっていたら、引っかかってしまったからである。 図に、3つの土を、そのUTF-8のコードと共に示す。 引っかかった文字は土の異体字の一つの下図の右端の字である。 今では多くのソフトがUTF-8を標準として採用し、たとえ英語圏で開発されたソフトでも日本語処理に困らないことが多い。 しかし、それは、3バ... 続きを読む

絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama|note

2017/11/13 このエントリーをはてなブックマークに追加 1446 users Instapaper Pocket Tweet Facebook Share Evernote Clip Rui Ueyama Note unicode UTF 絵文字

UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて... 続きを読む

Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた | 徳丸浩の日記

2017/01/02 このエントリーをはてなブックマークに追加 57 users Instapaper Pocket Tweet Facebook Share Evernote Clip Joomla 徳丸浩 UTF-8 バリデーション状況 制限

以前の記事 CMS四天王のバリデーション状況を調査したところ意外な結果になった で報告したように、Joomla!はログイン名の制限が非常にゆるやかになっています。であれば、 続きを読む

 
(1 - 3 / 3件)