ログインしてさらにmixiを楽しもう

コメントを投稿して情報交換!
更新通知を受け取って、最新情報をゲット!

コーパス corpus linguisticsコミュのコーパス公開サイト

  • mixiチェック
  • このエントリーをはてなブックマークに追加
Slava.です。

コーパスが公開されているサイトを見つけたら
教えてください!自分の専門外の言語でもいろいろ
ヒントになることがあると思います。

コメント(18)

Slava.です。

ロシア語のコーパスを紹介します。

ロシア語のナショナルコーパスが公開されています。
http://www.ruscorpora.ru/index.html

テュービンゲン大学のロシア語コーパスです。
http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html

AOTのロシア語コーパスです。
http://www.aot.ru/
こちらはチェコ語です。

チェコ語のナショナルコーパスです。

http://ucnk.ff.cuni.cz/
ひろふみです。
これは関西大学にある中国語
http://china.fl.kansai-u.ac.jp/

フランス語会話コーパス
http://lapin.ic.h.kyoto-u.ac.jp/Corpus/Corpus.html

ドイツ語例文コーパス
http://www.vu.hiroshima-u.ac.jp/deutsch_test/
あと韓国語コーパスが存在するそうです。
英語のコーパスを扱っている機関として代表的なところを。
かなり多くのコーパスがこれらの機関から入手できます。

ICAME
http://gandalf.aksis.uib.no/whatis.html

OTA
http://ota.ahds.ac.uk/

LDC
http://www.ldc.upenn.edu/


EAGLES
http://www.ilc.cnr.it/EAGLES/home.html
英語コーパスの追加です。

British National Corpus
http://www.natcorp.ox.ac.uk/
三省堂からウィズダム英和・和英辞典の用例コーパス

http://www.dual-d.net/corpus/

いまのところ無料公開。
ご存知の方も多いかと思いますが、国研の日本語コーパスのお試し版が公開されています。

http://www.tokuteicorpus.jp/index.php

このサイト内でコンコーダンサーも使えて便利なんですが、また例文が充分ではありません。同じように、Web上で検索できるコーパスをご存知の方があれば、教えてもらえないでしょうか。

以前、名古屋大学が青空文庫をかなり色んな方法で検索できるサイトを公開してましたが、今どうなっているのか見つかりません。
久し振りにここを見ました。

●結乃(ゆーの)さん
Helsinkiの何がわからないのでしょう?
もしかしてもう解決済みかもしれませんが(>_<)

●折口さん
国研のコーパスのお試し版は、「例文が充分でない」というか、
まだ白書関係とYahoo!知恵袋のみなので、研究利用のための
データとしては、ほぼ何の役に立たないものなのではないでしょうか。

このお試し版の意味は、いちおう独立行政法人という公的機関で
作っているもののため、一般の研究とは無関係な人々に
国研がどのような仕事をしているか知ってもらうということ、
そしてランダムサンプリングで当たった著作権者に対して
コーパスとはどういうものか説明すること、です。
上記2つの目的のために公開されているものだろうと思います。


青空文庫について言えば、国研から変換スクリプトが公開されています。
http://www.kokken.go.jp/lrc/
いくつかありますが、いずれも『ひまわり』という国研から出している
コンコーダンサーで使えるデータ形式に変換するものです。

『「青空文庫」変換スクリプトパッケージ』は、書籍版の
青空文庫付属のCD−ROMからデータを取るものです。
「えだまめ」はサイトからダウンロードしたテキストファイルを変換できます。

私自身は青空文庫の研究利用にはかなり懐疑的ですがww
古典を含む50年以上前の作品群、というのは大雑把過ぎて
よっぽど厳選しないと研究データにはなりにくいですね。
表記や文字コードの問題も、研究データとしては解決されて
いない問題が多いです。
パイロット調査的に使うには便利そうですね。
miu_novさん

情報ありがとうございます。お試し版の意味は、なるほどなと思いました。今ちょっと日本語コーパスを使いたいのは、「研究目的」ではないんですが、やっぱりそれなりのデータ数は必要ですからね。変換スプリプトのほうも見てみます。


こんばんは。
韓国語のコーパスサイトでおすすめをご存じありませんか?

自分でコーパスを作るのは難しいですか?
かなやんさん

「国会会議検索システム」はいかがでしょう。無料です。
http://kokkai.ndl.go.jp/

これを使った研究書も出ましたね。

『国会会議録を使った日本語研究』
松田謙次郎 編 2008年
ISBN 978-4-89476-299-2
http://www.hituzi.co.jp/books/299.html
かなやんさん

国研のKOTONOHAの期間限定のモニター公開データも無料ですね。誓約書の提出が必要ですが。
http://www2.kokken.go.jp/kotonoha/ex_8.html
かなやんさん、
KOTONOHAのモニター公開データの利用は、院生以上の大学等研究機関所属の研究者が対象のようです。学部生は対象に入っていないようです。卒論指導の先生なら対象になりますので、お願いしてみるとよいかも知れませんね。

ログインすると、残り5件のコメントが見れるよ

mixiユーザー
ログインしてコメントしよう!

コーパス corpus linguistics 更新情報

コーパス corpus linguisticsのメンバーはこんなコミュニティにも参加しています

星印の数は、共通して参加しているメンバーが多いほど増えます。