2015年02月07日

The BYU Wikipedia Corpus


The Wikipedia Corpus.JPG



The Wikipedia Corpus は、英語版の Wikipedia をコーパスに仕立て、オンラインで検索できるようにしたもの。

COCA に代表される BYU Corpora で有名な Mark Davis 氏がリリースされました。

サイトの説明を引いておきます。


The BYU Wikipedia corpus, which was released in early 2015, was created by Mark Davies (professor of linguistics at Brigham Young University). It contains 1.9 billion words in 4.4 million web pages, and you can search the entire corpus with the same type of queries as the other BYU corpora.

This corpus contains the full text of the English version of Wikipedia, and it contains 1.9 billion words in more than 4.4 million articles. But this corpus allows you to search Wikipedia in a much more powerful way than is possible with the standard interface. You can search by word, phrase, part of speech, and synonyms. You can also find collocates (nearby words), and see re-sortable concordance lines for any word or phrase.


動画チュートリアルもあり、これからいろいろ試してみようと思います。




posted by 石崎 陽一 at 11:53 | Comment(0) | 愛用の(学習用)サイト | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。
※ブログオーナーが承認したコメントのみ表示されます。
ページトップへ戻る