ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

コーパス corpus linguisticsコミュのコーパス編纂に関して

  • mixiチェック
  • このエントリーをはてなブックマークに追加
初めまして。私は現在、日本大学で塚本聡氏(KWIC作者)のコーパス言語学演習を履修しているものなのですが、今回課題として映画のスクリプトを編纂することになるにあたって、正規表現以外の方法で置換をする方法がうまく出来なくて困っております。
コーパス編纂経験ある方にアドバイスいただきたいのですが
いらっしゃいますか?メッセージもお待ちしております。

コメント(15)

1.「スクリプトを編纂する」とは、どのような形に整えるのでしょうか?(書式は?)
2.「正規表現以外の方法」とはどういう事でしょうか。
具体的に既に試みられている方法があるならば、
それはどのような方法でしょうか。

もう少し情報がないと、
みなさんアドバイスしづらいかと思います。

KWIC作者の先生の演習、面白そうですね!
なりさんコメントありがとうございます☆

ここでいう
スクリプト編纂というのは
<title></title>
<speech></speech>
<name></name>
などという風にワードの編集からワイルドカードを使用して映画全部を置換していく方法です。メタ文字というのでしょうか??

他にはどう説明したらいいですかね…あせあせ(飛び散る汗)

先生の授業は単位取るのが大変ですm(__)m

もしタグにプロパティーがないようでしたら(<name gender="male" sid="01">ではなくて、単純に<name>だけ)、正規表現でも処理できると思いますよ。

タグがembedされていたり(<name>John <male>Doe</male></name>)、プロパティーがあるようだと、PerlのHTML::ParserとかXML::Parserで処理するのが一番手っ取り早いかと思ひます。

がむばってくらさい。
映画のスクリプトを記したワードか何かのファイルに,タグを挿入していく作業をしたいということじゃないんですか?

これからやる作業について,出発点(素材はどういう形式のファイルでデータ量がどれくらいあるか,とか)と着地点を整理していけば,ほかの人からも的確なアドバイスが得られやすいと思います。
アドバイスするって中々難しいものですね…むぅ。

>☆ΗАЯЦ ニャン☆さん

zokkonさんのいうとおり、どういう形式のファイルなのか、
もう少し説明が欲しいですね〜

1. タグ付けしようとしているファイルは、Wordのファイルなのですか?(.docという名前のファイルでしょうか?)それとも別の、例えばテキストファイル(.txt)などでしょうか?

2. Wordの[編集]→[置換]を利用して編纂「しなさい」という課題なのでしょうか。それとも別の方法を使っても構わないのですか?(例えばTomoさんの言うようなPerlを使った編纂などはオススメですが。)

3. 付与するタグの種類は、上述の3つでよろしいのでしょうか?それとも他にもあるのですか?

4. 「映画のスクリプト」は、どのような形で書かれているのでしょうか。(元ファイルはどのような形式でしょうか?)
[例]
Mr Banks: Are you getting this Winifred?
Mrs Banks: Oh yes dear, every word.

↑のように、形式が分かるように例を挙げてもらえると、
zokkonさんの言う「出発点」が明確になり、
的確なアドバイスを得やすいかと思います。

5. それをどのような形に編纂したいのでしょうか。
(zokkonさんの言う「着地点」ですね)
[例]
<name>Mr Banks</name><speech>Are you getting this Winifred?</speech>

少なくともこの5つの情報が必要ですかね。。。
状況を説明するって難しいですよね(>_<;)
皆様コメントありがとうございます☆
私自身理解できていない点が多く説明不足でアドバイス
を求めてしまいご迷惑おかけしております。

1・テキスト形式はWORDのファイルです。
http://www.simplyscripts.com/movie.html
から自分のすきなスクリプトを選んでコピーして
Wordに貼り付けて編集していくという方法です。

2・検索、置換はあくまでも授業内の例であるので
ほかの方法でできるのならばかまわないようです。
例としてEmeditorの紹介もありました。
出来なかったら手打ちで入力も可といわれましたが・・・
(perlという方法がわかりません・・・泣)

3・タグは
<name></name>
<action></action>
<speech></speech>
<situation></situation>
<explanation></explanation>
の5つがあれば編纂できます。

4・手打ち入力したテキストは
こんな感じです。

<title>MADE</title>



<scene> INT. SPORTSMAN'S LODGE - SAN FERNANDO
VALLEY – DAY</scene>

<action>A large crowd has gathered to watch two WHITE
BOXERS square off in a temporary ring in the center of a
converted banquet hall. One is BOBBY, the other is RICKY.
They are drawn together to start the bout by a bell and a hand
gesture as the REFEREE backs away. Immediately the two
fighters unload a relentless barrage of POWER PUNCHES.
Neither man is holding back, and the punches all find purchase
in the swelling faces of their opponent. The crowd rises to its
feet in appreciation of this rare level of competition in
the lower strata of the heavyweight division.</action>

<explanation> CUT TO:</explanation>

まだ説明不足ですかね(´;ω;`)すみません・・・

[A-Z \(\).]@^13←検索にはこういうワード編集からワイルドカードをつかう検索方法をひきいました。そうするとこれにあてはまるものをすべて置換していくという方法なのですが、
どうしてもこの方法で検索していくやり方がつかめなくて・・・


う〜〜ん…
これは自動で見分けられるのか??
決まった法則があれば置換で処理出来ますけど、見たところなさそうな気が…( ̄- ̄;)
まだ、あまり背景が分からないのですが、テキストで大文字と小文字に区別があるようなので、upper-caseの文字だけに正規表現でタグをつけるって言うのはどうでしょう?

検索するのは、([A-Z '?-?.]{4,30}+)$で、
置換するのは、?<tempTag?>?1<?/tempTag?>

あとは、tempTagが着いた所を、正しいタグに変えてあげるとか。完璧じゃないですが、タグ付けは楽になるような気がします。

あと、コーパスを作るのであれば、Word以外のテキストエディタを使った方がいいですよ!
とりあえずこういうのをご覧になるっていうのはいかがですか?
http://www.amazon.co.jp/%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E8%A8%80%E8%AA%9E%E5%AD%A6%E3%81%AE%E6%8A%80%E6%B3%95%E3%80%881%E3%80%89%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E5%87%A6%E7%90%86%E5%85%A5%E9%96%80-%E4%B8%AD%E5%B0%BE-%E6%B5%A9/dp/4931391672/ref=sr_1_3/503-2093746-8679904?ie=UTF8&s=books&qid=1186803449&sr=8-3
http://www.amazon.co.jp/%E8%8B%B1%E8%AA%9E%E3%82%B3%E3%83%BC%E3%83%91%E3%82%B9%E8%A8%80%E8%AA%9E%E5%AD%A6%E2%80%95%E5%9F%BA%E7%A4%8E%E3%81%A8%E5%AE%9F%E8%B7%B5-%E6%96%89%E8%97%A4-%E4%BF%8A%E9%9B%84/dp/4327401390/ref=sr_1_1/503-2093746-8679904?ie=UTF8&s=books&qid=1186803449&sr=8-1
上記10に挙げたものより易しいものをご存知の方がいらっしゃいましたら、教えていただきたいデス。よろしくお願いいたします。
PCなかなか開く時間がなかったのでコメント遅くなってしまいましたm(__)m
勉強しはじめただかりなのでお見苦しい質問をしてしまっているかもしれませんが、すみません(;_;)



なりさん>いつもご親切にありがとうございます。あたしは
タグが使いこなせなくて↓まったく進まなくて凄く混乱してます(>_<)



tomoさん>
コメントありがとうございます☆upper-caseの文字だけにというのはどういう意味でしょうか(>_<)教えて頂けたら嬉しいです!それとワード以外を使うというのは何を使ったら良いのでしょうか??


コヨコヨさん>わざわざ例まで挙げて頂きありがとうございます☆
秀丸エディターというものをサイトでちょこっと見てみましたが、あちらは購入しなければならないものですよね??
他のエディターでは具体的にどんなものが使いやすいか教えて頂けたら嬉しいです♪

miu_novさん>
ご親切にありがとうございます☆
挙げて頂いた下のものをテキストとして授業で扱っています!他に参考書を新たに買うことも考えたのですが、やっぱりコーパスのテキストではこちらがお勧めなのでしょうか?
テキストエディタですが、emacsとかどうですか?日本では秀丸エディタとかサクラエディタとかが流行っているようですね。

個人的には、最初は取っ付きにくくても、emacsでやっておいた方が後々便利かと思います。
コメントありがとうございます(>_<)
教えて頂いたのを色々調べたりしたんですが、うまくできなくて正規表現使えない以外は手打ちでやってます↓
みっつやらなきゃいけないんで、死にそうです(;_;)
けれども!アドバイス下さった方々ありがとうございました☆

ログインすると、みんなのコメントがもっと見れるよ

mixiユーザー
ログインしてコメントしよう!

コーパス corpus linguistics 更新情報

コーパス corpus linguisticsのメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。

人気コミュニティランキング