タグ 文字コード
新着順 10 users 50 users 100 users 500 users 1000 usersUnicodeとUTF-8の違いは? - おつあり
2ch, 文字コードという2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。(元スレ) 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:... 続きを読む
文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
「文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか?日本語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたものJIS X 0208... 続きを読む
CSSのfont-family:ヒラギノとMS Pゴシックとメイリオの悩ましい関係 : webデザイナーのナナメガキ
CSSでのfont-familyの指定がとても悩ましい。文字コードによって表示が変わったりするし、イレギュラーケースまで想定すると煩雑なコードになってしまう。ちょっと整理しながら考えてみる。 まず、font-familyを何も指定しないと、だいたいのブラウザではデフォルトで設定されているフォントで表示されるのだが、文字コードがUTF-8だとWindowsのIE6で英数文字が「Times New R... 続きを読む
文字コード | 衆議院議員 河野太郎公式サイト
2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを... 続きを読む
JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
created_at: 2017-03-02 updated_at: 2017-03-02 tags: [ utf-16 , unicode , javascript ] Intro <textarea> などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども... 続きを読む
いいから聞け! 俺が文字コードについて教えてやるよ その1(前提知識編) - 谷本 心 in せろ部屋
ちょっと久々のJavaネタですが、前から書き溜めていた、文字コードやエンコードについてのノウハウを書きます。今回は、詳細な説明に入る前に、前提になる知識や用語について説明しておきます。文字コードとエンコードって違うの?新人くん「では、HTMLの文字コードはUTF-8でお願いします」先輩社員「文字コードじゃなくてエンコーディングでしょ?」新人くん「えっ。あぁ、はい、それで」文字コードとエンコード(エ... 続きを読む
はてなダイアリーに(対応外の)ブログパーツを貼る - ぼくはまちちゃん!(Hatena)
はてなダイアリー日記 - 自分のはてなダイアリーにブログパーツを設置できるようになりました これはいいね! さっそく googleガジェットを使って、(対応外の)すきなブログパーツとかを色々貼ってみよう! まずは下のようなテキストファイルをつくって、文字コードをutf-8で保存…! xml version="1.0" encoding="UTF-8" ?> title="ここにパーツ名かこうね!"... 続きを読む
新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 - 新常用漢字が引き起こす文字コード問題:ITpro
普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。 (日経コンピュー... 続きを読む
文字コードに起因する脆弱性とその対策
Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 続きを読む
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の... 続きを読む
ASCIIコードの秘密 - ザリガニが見ていた...。
コマンド, 雑記本当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基本として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は本当の意味をよく分かっていなかったことに気づいた。ASCIIコード表ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている... 続きを読む
ケータイサイト制作前にコーダーが確認しておきたいところ │ これからゆっくり考L +α
モバイルサイトの制作前に、もしくは打ち合わせに行った場合は必ずチェックしておきたいところをまとめてみました。 こちらから積極的に確認しないと、何も詳細が分からないままデザインだけぽーんと渡されてしまうことがあるので、自ら前のめりでチェックしておきたいところです。 個人的に「ここだけは外せない!」という項目は以下の6つ ・xhtml?html? ・文字コードは? ・tableは使ってOK? ・絵文字... 続きを読む
MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
2016 - 09 - 06 MySQL で utf8 と utf8mb4 の混在で起きること MySQL MySQL を UTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQL の UTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQ... 続きを読む
全ての開発者が知っておくべきUnicodeについての最低限の知識
2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnic... 続きを読む
README のファイル名が大文字である理由 - clock-up-blog
2014-05-08 README のファイル名が大文字である理由 慣習 文字コード README のファイル名は慣習的にすべて大文字(であることが多い) GitHub でプロジェクトを作るときに README を作成するオプションを入れておくと、README.md というファイルができる。それ以外の場所のプロジェクトでも README.txt や README など、ファイル名がすべて大文字にな... 続きを読む
文字コードに起因する脆弱性を防ぐ「やや安全な」php.ini設定 - 徳丸浩の日記
●文字コードに起因する脆弱性を防ぐ「やや安全な」php.ini設定 PHPカンファレンス2010にて「文字コードに起因する脆弱性とその対策」というタイトルで喋らせていただきました。プレゼンテーション資料をPDF形式とslideshare.netで公開しています。 文字コードのセキュリティというと、ややこしいイメージが強くて、スピーカーの前夜祭でも「聴衆の半分は置いてきぼりになるかもね」みたいな話を... 続きを読む
文字コード規格の基礎:ITpro
この記事は,日経ソフトウエア 1999年10月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。 文字コード規格の基礎を手早く理解したい場合などにお役立てください。 文字コードは間違いなく情報を交換するための「決まりごと」なので,正確を期すため厳密な仕様が規定されている。だが,その仕様そのものを実装するプログラムを作る場合を除けば,プログラマが仕様の詳細... 続きを読む
UTF-8にもいろいろある - ザリガニが見ていた...。
コマンド前回からの続き。改行コードの違いを体感してみる - ザリガニが見ていた...。文字エンコードとロケールを体感する - ザリガニが見ていた...。改行コードの違いも知った。文字コードとロケール、ターミナルの言語環境との関係も知った。これで文字にまつわる悩みとはおさらばできると思ったら、まだダメだった...。実験環境OSX 10.8 Mountain Lion以前*1ターミナル 言語環境:Un... 続きを読む
シフトJISを使い続ける上場企業をまとめてみた - megamouthの葬列
2017 - 10 - 20 シフトJISを使い続ける上場企業をまとめてみた srad.jp こういうニュースがあった。世界のWebサイトの90%が utf-8 を使用している、という。 昔、 シフトJIS で エンコード された PHP ファイルを編集させられた時、「表示」が表示できず(文字通りの意味である)バイナリ リテラル を書いてい たこ とを思い出す。 文字コード 断絶の歴史を乗り越え、... 続きを読む
【レビュー】ExcelのCSVインポート・エクスポート機能を強化する「Excel CSV I/O」 - 窓の杜
レビュー ExcelのCSVインポート・エクスポート機能を強化する「Excel CSV I/O」 数値を文字列として扱い、文字コードや区切り文字の指定も可能 (2014/2/14 10:27) 「Excel CSV I/O」v1.1 「Excel CSV I/O」は、CSVファイルのインポート・エクスポート機能を強化するExcel用アドイン。標準のインポート・エクスポート機能で気になる数値の扱いや... 続きを読む
ㇹ゚ン゚'ㇳ̃ヴ゙ニ゙コ゚ヮヰ文̂字̠コ゚−ト゚ノ゙ㇵナ゚ㇱ(現在に至るまでの文字コードの軌跡と簡単な使い方について) - へっぽこびんぼう野郎のnewbie日記
はじめに 社内の勉強会で発表した文字コードの話の焼き直しです。ところどころ適当なので話半分に読んでもらえると助かります。 これ以上闇の深さを知りたくないと思って、深淵に辿り着く前に文字コードの勉強を打ち切っています。文字コードの専門家でもないので雑です。 調査が甘いので間違ってることも多々あるかもし... 続きを読む
Webページの本文抽出 (nakatani @ cybozu labs)
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 ... 続きを読む
シフトJIS / EUC-JPとUnicodeとの妥当な変換表: Netsphere Laboratories
2004.10.17 新規作成。2004.12.19 加筆。2005.04.02加筆。 最近、コンピュータで扱う文字列の文字コードがUnicodeでなければならない場面が増えてきた。UnicodeとシフトJIS、EUC-JPを変換する機会が多い。この変換は変換表で行うが、変換表が実際的なものでなければ、文字化けが発生することになる。 おかしな変換表は、これまでは、特にLinuxなどの上で動作するオ... 続きを読む
新元号「令和」と文字コード(主にUnicode)の問題 - Togetter
年号扱うシステムを運用しているところは、これから30日でテスト完了させなきゃいけないわけだけど、U+F9A8 U+548C (令和) のケースと、U+4EE4 U+548C (令和) のケースがあるみたいなのを想定していなかった…って事例はなんかすごくありそう。大丈夫かなぁ… 続きを読む
第7回■文字エンコーディングが生み出すぜい弱性を知る:ITpro
文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不... 続きを読む