sed/awkコミュのgawk 3.1.5 で文字列のバイト数を得る

gawk 3.1.5 では length("あああ") は 3 を返しますが、純粋にバイト数 (EUC-JP の場合なら 6) を返すような関数ってありますか?

jgawk 時代には length() と jlength() を使ったスクリプトを作っていました。

また、index() などでも同様の区別をさせることって可能でしょうか?

コメント(10)

最初
全て
最新の40件

[1] mixiユーザー 01月19日 02:32

ないと思います。

3.1.4の時代の実装なら、jlength相当のものをsplitを使って
自分で定義するようなこともできたんですが、逆はできない
ですからね。

jindex、jsubstrもsplit使って定義してました。

ところで文字数ではなくバイト数が必要な場面て
出力の成形がらみですか?

[2] mixiユーザー 01月19日 10:47

データベースにCSV等を流し込む際に、フィールド毎のバイト数を計測するときに使うかな。

[3] mixiユーザー 01月19日 18:40

hoge:~$ gawk 'BEGIN{print length("あああ")}'
3
hoge:~$ LANG=C gawk 'BEGIN{print length("あああ")}'
6

[4] mixiユーザー 01月19日 22:37

>>3
それだと一つのプログラムの中でバイト数と文字数を
求めたいときに困りませんか?

正規表現マッチングもバイト指向になっちゃうし。

[5] mixiユーザー 01月19日 23:01

ほげむたさん、ありがとうございます。理由は整形がらみなんですが、私も jlength を定義していた派でした。

ょさん、見てくれていたんですね。(^^;
ブログを先に見たので、「これ、私の質問?」とか思っていました。
LANG だと 1 つのスクリプトで使い分けるのが厳しいです。

バイト数は文字数のカウントコマンド (wc とか) でカウントさせて戻すという荒技くらいしか思いつかないです。

[6] mixiユーザー 01月19日 23:40

これこそ、欧米人のアジア言語圏に対する認識であり、我々がアピールしなかった結果なのでしょう。
単一スクリプト内で文字数とバイト数を同時に扱うことはできないのですから、もうそれは gawk の出る幕じゃなく、 perl や ruby とかを使うしかないのでしょう。

[7] mixiユーザー 01月20日 00:08

awk はテキスト処理に特化しつつ、少ない関数で手軽に処理できる反面、多言語を扱うのは厳しいということですかね。

[8] mixiユーザー 01月20日 00:25

Perlでも、use encoding しているとき(=処理がバイト単位でなくキャラクタ単位のとき)に文字列のバイト長を求めるのは
面倒なんですけど(できなくはない)。

Rubyは逆にキャラクタ単位の長さを求めるのに一手間
必要だったりします。

まあスクリプティング言語に限らずPOSIXの規格も
マルチバイトキャラクタには冷たいですね。

で、キャラクタ単位の長さとは別にバイト単位の長さを
求める手段が必要であるならそれは必要だと思う人が
アピールするべきであるというのは賛成です。

[9] mixiユーザー 01月20日 02:59

unicodeがからむと、より面倒な事態に……。
MacOS9向けのファイル名を生成するときにバイト単位の計算が必要でしたね。

ログインすると、みんなのコメントがもっと見れるよ