タグ 文字コード
人気順 5 users 10 users 100 users 500 users 1000 usersZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。... 続きを読む
全ての開発者が知っておくべきUnicodeについての最低限の知識
2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnic... 続きを読む
話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
文字コード | 衆議院議員 河野太郎公式サイト
2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを... 続きを読む
ChatGPTは文字コードをどのように解釈しているか Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った... 続きを読む
JavaScript における文字コードの初歩 - 30歳からのプログラミング
この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。 また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.2... 続きを読む
「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字
HTMLファイルで特殊記号を使う際、① は ①、© は © のように置き換えて書かないといけないものだと思いこんでいないでしょうか。 現代ではそれは誤解です。 UTF-8では特殊記号の文字参照は不要 そもそも環境依存文字とは、データを扱う機種・ソフトウェアなどの違い(文字コードの割り当ての違い)により表示... 続きを読む
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の... 続きを読む
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の... 続きを読む
メモ帳の文字コード既定値がUTF-8に、Windows 10「May 2019 Update」 | 日経 xTECH(クロステック)
2019年5月21日(米国時間)から、Windows 10の大型アップデート「Windows 10 May 2019 Update(May 2019 Update)」の配信が順次始まった。主要な新機能や変更点を見ていこう。 May 2019 Updateでは、Linuxとの親和性をさらに高める機能が追加された。この他、メモ帳のデフォルト設定の文字コードがUTF-8となり、今まで... 続きを読む
新元号「令和」と文字コード(主にUnicode)の問題 - Togetter
年号扱うシステムを運用しているところは、これから30日でテスト完了させなきゃいけないわけだけど、U+F9A8 U+548C (令和) のケースと、U+4EE4 U+548C (令和) のケースがあるみたいなのを想定していなかった…って事例はなんかすごくありそう。大丈夫かなぁ… 続きを読む
char8_tによせて - なるせにっき
C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈で... 続きを読む
デイリーポータルZシステム移行インタビュー :: デイリーポータルZ
こんにちは、編集部 石川です。 さる10/16、デイリーポータルZは裏側のシステムが総とっかえになりまして、現在あたらしいシステムの上で動いております。単なるシステム移行ではなく、15000本ほどの記事以降、ドメイン移転に文字コードの変更、SSL化など一気に実装した大手術でした。 くわしくはこちら⇒ デイリーポータ... 続きを読む
ㇹ゚ン゚'ㇳ̃ヴ゙ニ゙コ゚ヮヰ文̂字̠コ゚−ト゚ノ゙ㇵナ゚ㇱ(現在に至るまでの文字コードの軌跡と簡単な使い方について) - へっぽこびんぼう野郎のnewbie日記
はじめに 社内の勉強会で発表した文字コードの話の焼き直しです。ところどころ適当なので話半分に読んでもらえると助かります。 これ以上闇の深さを知りたくないと思って、深淵に辿り着く前に文字コードの勉強を打ち切っています。文字コードの専門家でもないので雑です。 調査が甘いので間違ってることも多々あるかもし... 続きを読む
CNNによる文字コード不明なドキュメントの推定 - にほんごのれんしゅう
2018 - 01 - 08 CNNによる文字コード不明なドキュメントの推定 CNNによる 文字コード 不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitter で時々バズるネタとして、 機械学習 がこれほどもてはやされるのに、今だ... 続きを読む
シフトJISを使い続ける上場企業をまとめてみた - megamouthの葬列
2017 - 10 - 20 シフトJISを使い続ける上場企業をまとめてみた srad.jp こういうニュースがあった。世界のWebサイトの90%が utf-8 を使用している、という。 昔、 シフトJIS で エンコード された PHP ファイルを編集させられた時、「表示」が表示できず(文字通りの意味である)バイナリ リテラル を書いてい たこ とを思い出す。 文字コード 断絶の歴史を乗り越え、... 続きを読む
HTMLの文字コードをどうするべきか、あるいはHTMLとは何かという話 | なすびブログ
HTML文書は文字エンコーディングUTF-8でなければなりません という記事があり、混乱があるようなのでHTMLについてHTML5とHTML Living Standard(以下HTML LSと省略)について、そしてHTMLファイルの文字コードをどうするかについて、まとめておきます。 TL;DR HTMLファイルの文字コードはHTML Living Standardに従ってUTF-8にする 古いS... 続きを読む
MySQLの日本語コレーション - @tmtms のメモ
2017 - 06 - 19 MySQLの日本語コレーション MySQL 4月にMySQLの日本語コレーションについて語り合う場に呼ばれていろいろ話を聞いてきました。すぐにブログを書こうと思ったんですが、はや2ヶ月経過…。 ときどき、自分がMySQLの文字コードに関して発表する際に、次のようなスライドをいれてるんですが、 MySQL 8.0 でとうとう日本語コレーションが入ることになったのに、なん... 続きを読む
macOS上のAPFSはUnicode Normalizationを行うのか? - なるせにっき
2017 - 03 - 28 macOS上のAPFSはUnicode Normalizationを行うのか? iOS 10 .3がリリースされましたが、APFSへの移行が含まれていて話題です。特に 文字コード 界隈ではHFS+で搭載されていた暗黙の Unicode Normalizationがなくなっている点が指摘されています 1 。 では macOS ではどうなのでしょうか。Sierraならばす... 続きを読む
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
created_at: 2017-03-02 updated_at: 2017-03-02 tags: [ utf-16 , unicode , javascript ] Intro <textarea> などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども... 続きを読む
Security Font(セキュリティフォント)
マイナンバー導入に向けてのマストソリューション。 What is Security Font? Security Font(セキュリティフォント)とは? コンピュータで文字はバイト表現である文字コードとして扱われています。文字コード体系にはISO-2022-JP(JISコード)や、Unicodeなど複数の種類があります。フォントはこの文字コードとキャラクタ(文字画像)を関連付けるデータです。 セキ... 続きを読む
MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
2016 - 09 - 06 MySQL で utf8 と utf8mb4 の混在で起きること MySQL MySQL を UTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQL の UTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQ... 続きを読む
符号化文字集合と文字符号化方式 - 「プログラマのための文字コード技術入門」を読んだ - $shibayu36->blog;
2015-09-14 符号化文字集合と文字符号化方式 - 「プログラマのための文字コード技術入門」を読んだ tech book 最近文字コード周りでハマった時に、文字コードというものをそもそもちゃんと分かってないと気づいた。そこで「プログラマのための文字コード技術入門」を読んで勉強してみた。プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS p... 続きを読む
MySQL - RDSでロックなしのALTER TABLE(pt-online-schema-change使用) - Qiita
データ件数が大量に(レコード数100万以上とか)ある場合、ALTER TABLE時にテーブルの書き込みロックが無視できないレベル(時間)で発生します。 テーブルの書き込みロックについて MySQL5.5以前: ALTER TABLE時に発生 MySQL5.6以降: ALTER TABLEでカラムのデータ型変更、全文検索用インデックスの追加、プライマリキーの削除、文字コードの変換/指定 を行った時に... 続きを読む
ASCIIコードの秘密 - ザリガニが見ていた...。
コマンド, 雑記本当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基本として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は本当の意味をよく分かっていなかったことに気づいた。ASCIIコード表ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている... 続きを読む