韓国の家庭医療学会誌を材料に韓国語の学習と家庭医療の生涯教育の二兎を追うブログ。

2009年11月17日火曜日

医学用語漢字の頻度

医学用語に使われる漢字の頻度を調べるため、Canada式医学用語変換辞書内の漢字の頻度を、「どう書く?.org β」の「コード中の文字の頻度分析」のRのスクリプトを使って調べてみました。上位100文字を記しておきます。

# table for one file
table.file <- function(f){ table(unlist(strsplit(readLines(f), ""))) } # table for multiple files (one file can be also accepted) table.files <- function(files){ table(unlist(sapply(files, function(f)(strsplit(readLines(f), ""))))) } > l <- sort(table.files("/home/user/med_dic.txt"), dec=TRUE) > data.frame(num=l, percent=100*l/sum(l))

num percent
性 6889 4.031435e-01
症 2777 1.625097e-01
血 2417 1.414426e-01
骨 1950 1.141138e-01
的 1944 1.137626e-01
動 1890 1.106026e-01
内 1713 1.002446e-01
体 1679 9.825488e-02
管 1649 9.649928e-02
部 1617 9.462665e-02
化 1559 9.123249e-02
経 1452 8.497087e-02
分 1427 8.350787e-02
脈 1388 8.122559e-02
状 1373 8.034780e-02
膜 1356 7.935296e-02
中 1329 7.777292e-02
下 1302 7.619288e-02
神 1268 7.420321e-02
子 1248 7.303281e-02
発 1246 7.291577e-02
腫 1238 7.244761e-02
胞 1220 7.139425e-02
生 1213 7.098461e-02
上 1164 6.811714e-02
細 1135 6.642006e-02
学 1134 6.636154e-02
外 1133 6.630302e-02
十 1130 6.612746e-02
大 1120 6.554227e-02
筋 1110 6.495707e-02
心 1100 6.437187e-02
第 1097 6.419631e-02
術 1095 6.407927e-02
法 1053 6.162143e-02
節 1043 6.103623e-02
皮 1020 5.969028e-02
炎 1007 5.892952e-02
後 1000 5.851988e-02
頭 982 5.746652e-02
合 973 5.693984e-02
条 910 5.325309e-02
気 906 5.301901e-02
ー 896 5.243381e-02
形 893 5.225825e-02
間 892 5.219973e-02
病 872 5.102934e-02
期 870 5.091230e-02
前 850 4.974190e-02
側 838 4.903966e-02
異 837 4.898114e-02
出 834 4.880558e-02
物 833 4.874706e-02
不 829 4.851298e-02
型 818 4.786926e-02
二 800 4.681590e-02
線 798 4.669886e-02
成 795 4.652330e-02
小 790 4.623071e-02
能 787 4.605515e-02
百 776 4.541143e-02
害 774 4.529439e-02
尿 769 4.500179e-02
酸 762 4.459215e-02
質 760 4.447511e-02
療 751 4.394843e-02
感 750 4.388991e-02
素 747 4.371435e-02
全 742 4.342175e-02
腸 731 4.277803e-02
切 730 4.271951e-02
定 705 4.125652e-02
位 701 4.102244e-02
水 701 4.102244e-02
関 695 4.067132e-02
度 692 4.049576e-02
障 687 4.020316e-02
薬 677 3.961796e-02
機 667 3.903276e-02
結 667 3.903276e-02
用 659 3.856460e-02
球 657 3.844756e-02
抗 644 3.768680e-02
手 640 3.745272e-02
量 636 3.721864e-02
圧 626 3.663344e-02
三 626 3.663344e-02
脳 625 3.657493e-02
肺 615 3.598973e-02
変 610 3.569713e-02
行 608 3.558009e-02
作 601 3.517045e-02
常 599 3.505341e-02
液 598 3.499489e-02
時 596 3.487785e-02
検 595 3.481933e-02
反 565 3.306373e-02
高 556 3.253705e-02
色 554 3.242001e-02
無 551 3.224445e-02
基礎医学の用語も含まれていますのでKJFMに出現する用語とは差があることが想像されますが、意外と難しい漢字は少ないような気がします。以前挙げた「接尾辞1ダース」が結構上位に入ってますね。
1. ー성【性】 2. ー화【化】 3. ー적【的】 4. ー양【様】 5. ー상【状】 6. ー도【度】 7. ー율【率】 8. ー염【炎】 9. ー제【剤】 10. ー증【症】 11. ー법【法】 12. ー병【病】

0 件のコメント:

コメントを投稿