タグ UTF-8
人気順 10 users 50 users 100 users 500 users 1000 users【C#】文字列の最適化手法について - Annulus Games
今回はC# Advent Calendar 2024の20日目の記事です。テーマは文字列の最適化について。 C#において文字列を表現するstring型はクラスであり、生成のたびにヒープにアロケーションを行うためパフォーマンス低下の要因になりがちです。また、C#のstringの中身は歴史的経緯からUTF-16となっており、UTF-8を直接扱うことがで... 続きを読む
「文字数カウントツール」、タイッツー開発者が公開 「たぶん高機能」
タイッツーの文字数カウント処理を流用して作ったサービス。 テキストを入力すると、空白を含む全体の文字数、空白を抜いた文字数、全角文字数(全角は1文字、半角は0.5文字)、行数、段落数、UTF-8でのバイト数などを瞬時にカウントして表示する。 文字数カウントツールとしては、Google検索トップに表示されていた老舗... 続きを読む
「//このコメントを消したら動かない」は大体Shift_JISの2バイト目が原因で発生する - Qiita
TL;DR Shift_JISにしただけでコンパイラが通らなくなる恐ろしい事件とその回避法について。 \ (¥)のASCIIコードは0x5c 表、能はダメ文字 UTF-8は神 Shift_JISやめろ \を改行とみなすかどうか C言語のコンパイラの仕様によっては\を改行と解釈しコメントが続くと解釈します。この辺りはWindowsのgcc/g++とMac/Linuxのそれ... 続きを読む
awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian K... 続きを読む
話題の「Telnet」電子公告、「平文やんけ」という指摘に応えて「over SSL」版を追加/文字コードも「UTF-8」に、ただし超長文の反論付き【やじうまの杜】
ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~
NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになる... 続きを読む
遺伝的アルゴリズムに並列化プログラミングの実施と考察 - Qiita
前回の続きです 遺伝的アルゴリズムのサンプルコード 参考文献 「C言語による画像処理入門」2000/11/1 (著)安居院 猛、長尾 智晴 文献のAmazon 準備 # -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from threading import Thread class threadAndReturn(Thread): def __init__(self, grou... 続きを読む
日本郵便のKEN_ALL.CSVが改善される | スラド デベロッパー
あるAnonymous Coward 曰く、郵便番号と住所の変換システムを扱うエンジニアの間で悪名高かったKEN_ALL.CSVだが、2023年6月更新分より、文字コードがUTF-8に、フリガナが全角カタカナになり、町域名が長いときも複数レコードに分割されなくなったファイルが新たに追加された模様。従来通りの書式のファイルもダウンロー... 続きを読む
RubyKaigi 2023で "UTF-8 is coming to mruby/c" というタイトルで話しました - Eggshell
スライドタイトルは「サンタが街にやってくる」つまり「Santa Claus Is Coming to Town」のもじりでした。 UTF-8がルンルンでmruby/cにやってくる様子を思い浮かべながら決めました。 スライド きっかけ 発表内でも触れましたが、はすみさんにRubyWorldConference2022でmruby/cのUTF-8対応をしませんかと誘われたのがき... 続きを読む
Unixを開発したケン・トンプソン氏がMacからLinuxへ移行した事を発表 | ソフトアンテナ
Unix、Plan9、UTF-8、Goプログラミング言語の開発者として知られ、現在80歳となったケン・トンプソン氏が、最近使用するコンピューターをMacからLinuxへ移行した事を明らかにしました。 SCaLE 20xカンファレンスの閉会基調講演でケン・トンプソン氏は、自身が作成したジュークボックスに関して説明し、最後の質疑応答コ... 続きを読む
「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字
HTMLファイルで特殊記号を使う際、① は ①、© は © のように置き換えて書かないといけないものだと思いこんでいないでしょうか。 現代ではそれは誤解です。 UTF-8では特殊記号の文字参照は不要 そもそも環境依存文字とは、データを扱う機種・ソフトウェアなどの違い(文字コードの割り当ての違い)により表示... 続きを読む
UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER Tech Blog
こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JIS... 続きを読む
全社会人に伝えたい! WindowsやMacで「ZIPファイル」を文字化けさせない方法 | ライフハッカー[日本版]
文字コードにUnicode(UTF-8)が使われるようになって以来、OS間の垣根はかなり低くなっています。 基本的には、現在の4大OSとも言うべき、Windows、Mac、iOS、Androidの間でファイルをやり取りしても、文字化けを起こすことはほぼありません。 続きを読む
Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指... 続きを読む
Re: Goでcsvを操作するための基本的な知識
Println で標準出力してみると以下のように表示されるかと思います。(SHIFT-JIS形式なのでmacでみると文字化けしていますがひとまず置いておきます) 日本では一般的に CSV ファイルは Shift_JIS でエンコードされている事が多いです。Go 言語は内部のエンコーディングが UTF-8 なので、Shift_JIS な CSV ファイルを読... 続きを読む
国産のWikiソフト「PukiWiki」が2年ぶりにバージョンアップ、「PHP 8.0/8.1」に対応/EUC-JP版をUTF-8へ変換するツールも用意
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co... 続きを読む
UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita
mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) my... 続きを読む
「秀丸」11年ぶりメジャーバージョンアップ ダークモードなど新搭載
サイトー企画(福井県)は、Windows向けの定番テキストエディタ「秀丸エディタ」の最新版「Ver9.00」を、12月2日までに公開された。新たに、Windowsがダークモードになっていると連動して秀丸もダークモードになる機能などを搭載した 新規インストール時の標準のエンコードに「UTF-8」を追加。正規表現の部分式呼び出し... 続きを読む
ASCII.jp:BOMなしUTF-8によってWindowsでもたらされる困惑 (1/2)
かつてWindowsでテキストファイルといえばシフトJIS形式のものが大半だった。しかし最近では、UTF-8形式のテキストファイルも普通に見かけるようになってきた。世の中はUTF-8が主流になりつつあると言っていいだろう。 しかし、WindowsでUTF-8を使うと、ちょっと困ったことがある。それは、エクスプローラーの検索欄など... 続きを読む
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の... 続きを読む
「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の... 続きを読む
PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ
Python がテキストファイルを開く時のデフォルトエンコーディングがUTF-8でないことは、多くのWindowsユーザー、特にプログラミング初心者にとって障害になっています。 UnicodeDecodeError で検索すると、多くのWindowsユーザーが問題に遭遇しているのがわかります。 https://qiita.com/Yuu94/items/9ffdfcb2c26d6b3379... 続きを読む
UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試し... 続きを読む
UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。 ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。 そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた... 続きを読む