ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

Stata同志コミュのテキストファイルをinsheetする際の文字コードについて

  • mixiチェック
  • このエントリーをはてなブックマークに追加
はじめまして。
STATA初心者です。あまりにも初歩的だったり、見当違いの質問だったら申し訳ございません。
日本語を含むデータのテキストファイル(tab区切り)をinsheetで読み込む際、日本語を表示可能とするには、どの文字コードで読み込めばいいのか教えて頂けませんでしょうか?

現在入手しようとしているデータがあるのですが、そのデータはエクセルでは読み込めない行数のデータで、UTF-8かUTF-16のいずれかで送るので指定するように言われています。

これまでは、文字コードを意識せずに、DBから書き出したテキストを読み、日本語表示ができていました。そのテキストファイルを確認したところ、Windows XPのメモ帳で開くと文字コードは"ANSI"になっており、それをブラウザで読み込むと文字コードは"シフト-JIS"となっていました。


自分で試しに、これまで読み込めたテキストファイルの文字コードを一旦変えて保存し、insheetで読み込みをしたところ、下記のような結果になりました。UTF-8では文字化けしてしまいます。

 ANSI(ブラウザで読み込むとシフト-JIS)      → STATAで日本語表示可能
 UTF-8(ブラウザで読み込むとUnicode(UTF-8)) → STATAで文字化け
 Unicode(ブラウザで読み込むとUnicode)      → STATAで文字化け

 *ここで日本語表示可能という意味は、variableなどでは日本語表記されませんが、
  observationとしては文字列として文字化けせずに表示・認識されているという
  意味です。
  例えば、list if v2=="価格"で検索・表示してくれます。
  また、labelとしても表示されます。


UTF-8で送ってもらって、そのデータをANSIに変えて保存をし直すという方法もあるとは思うのですが、それによって文字化け等が発生するのではないかと懸念しております。どなたかご存知であれば、教えて下さい。よろしくお願い致します。
 


環境
 STATA 9.2/MP
 Windows XP Professional


日本語表示については、過去のトピックに載っていたこちらのリンクの内容も見ましたが、解決することができませんでした。
 http://keijisaito.info/arc/stata/japanese_stata.htm

*長文になり申し訳ございません。よろしくお願い致します。

コメント(8)

管理人です。質問ありがとうございます。私は英語環境でしか使ったことがないのでよくわからないので、他の人から回答を待ってみてください。何かよい手段がわかるといいですね。私も検索してみます。
Marmiteさん

気にかけて頂きまして、ありがとうございます。日本語のみであれば、ANSI(シフト-JIS)での読み込みして、var nameを英語表記して、labelやobsを日本語で使えばいいのですが、欧文フォントの特殊文字(フランス語やドイツ語)を使っているデータもありまして、それを表示させることも考えなけれならないのです。先方から欧文フォントの特殊文字はUTF-8じゃないと見れないと言われておりまして、両方をどう処理するか悩んでおります。
何とか皆様にいい手段を教えて頂けましたら幸いです。

Babさん、STATAは元々ASCIIしか読み込めないようになっているので、難しいところですね。他の人の回答をお待ちしています。
http://www.stata.com/support/faqs/unix/charset.html
お問い合わせの内容と違っていたらもうしわけないのですが、
UTF8からConversionするときのパッチのようなものだと理解してます。
Marmiteさん

ありがとうございます。
教えて頂いたwebページの対処をしてみます。
実は、今日明日と対応できないので、水曜日にトライしてみます。
Marmiteさん

自分で対処してみますと言ってみたものの、コンピュータに詳しく無く英語の読解力も乏しい自分です。どこにディレクトリを作ればいいのかわかっておりません。また、ページ内の表のプラットフォームにSTATAを使っているWindows XPが対応していないのでは!?と考えてみたり混乱しています。
教えてもらってばかりで大変恐縮ですが、もしご存知でしたら何処にcharset.aliasを置けばいいか教えて頂けないでしょうか。誠に申し訳ございません。
Babさん、すみません。上記のリンクはUnix用のでした。BapさんはXPを使っていらっしゃるので必要ないと思います。ここで回答を得られなかったらSTATAのテクニカルサポートで指示を仰ぐしかないと思います。

どなたかプログラミングに詳しい方ご回答いただけないでしょうか?お願いします。
Marmiteさん

ありがとうございます。Unix用のようですね。
一応、欧文フォントや特殊な文字は、テキストエディタを使って、STATAで文字化けしないANSIで読める文字に置換してから、insheetをすることにしました。(重要度の高い文字の識別から考えました。)
テクニカルサポートに問い合わせも検討してみます。問い合わせの際は、結果をこちらにフィードバックしたいと思います。
いろいろご親切にありがとうございます。

ログインすると、みんなのコメントがもっと見れるよ

mixiユーザー
ログインしてコメントしよう!

Stata同志 更新情報

Stata同志のメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング