Coverage deltas

Use this listings to track regressions. It is automatically generated and I merely » the new data at the end. See:

2013-03-19

fi-gutenberg

Missing word forms

Frequency Word form
854 ett
715 Mathieu
604 sitte
273 Tressilian
247 Varney
241 Constance
229 Servosse
222 Jaampa
201 Lily
200 kauvan
172 Morange
165 nämät
165 Mathieun
154 aivankuin
153 FALSTAFF
151 HOMSANTUU
149 Beauchêne
144 taaskin
143 Laagje
139 huoneesen
136 Mellet
129 ell
119 Séguin
113 Bathseba
109 Lambourne
106 Sérafine
101 ennenkin
100 itsekin
99 vaikk
92 Margreta
92 eteensä
87 Aarnold
85 Sitte
81 Warrington
81 olis
80 Comfort
79 ia
78 kiini
77 iin
76 ainoatakaan
75 Mr
75 frankia
74 OF
72 THE
72 PROJECT
72 GUTENBERG
72 Ett
72 EBOOK
72 Blaise
72 Beidermann
71 kylläksi
71 issa
70 yht’äkkiä
67 Kyllähän
67 kehoitti
67 katteini
67 Constancen
66 GLOSTER
65 jälellä
64 Walters
64 Couteauska
64 Burleson
63 nuot
62 Tressilianin
62 kentiesi
61 Boutan
60 Wayland
60 Miks
60 Beauchênen
59 Sussexin
58 Ambroise
57 Nämät
56 Laagjen
56 itsekään
55 Verdenton
54 VÖRSKY
54 Pieter
54 Norinen
54 Metta
53 Amy
52 viimeinkin
52 ROSAMUNDA
52 Reine
52 ensimäinen
51 Jaampan
50 Vaughn
50 mukaansa
50 Céleste
49 Morangen
48 Santerre
48 miks
48 eroittaa
47 Mathieutä
47 ille
47 Hortobágyin
47 ensimäisen
46 seksmanni
46 lle
46 Lepailleur
46 kysäsi

fiwiki

Missing word forms

Frequency Word form
69059
41424 of
40434 The
40108 amp
34123 000
32531 the
17380 HMS
17256 New
16417 and
14666 jpg
14610 http
12972 UTC
11165 ndash
10143 fi
9211 to
8430 EEST
8319 EM
6401 EET
6122 is
5607 org
5482 FC
5394 World
5356 ssa
5161 svg
5148 for
4850 ssä
4796 C3
4666 Records
4533 La
4389 com
4041 ry
3992 Black
3983 St
3873 You
3321 mukaansa
3285 Music
3244 la
3195 php
3149 as
3056 American
3037 Red
3032 vuosis
3021 vuosie
2894 index
2875 Le
2696 lle
2665 GP
2628 al
2595 JPG
2594 National
2504 It
2404 All
2379 by
2311 with
2301 that
2285 Star
2278 Big
2251 Real
2233 F1
2113 Club
2105 Life
2099 from
2079 Prix
2060 Golden
2053 Blue
2048 Recordsin
2025 at
2001 One
1996 El
1979 haltuunsa
1975 html
1867 di
1866 Pohjois-Amerikassa
1865 hjois
1847 File
1846 der
1830 Ää
1796 Bob
1790 sta
1749 Pohjois-Amerikan
1740 be
1736 des
1727 AHL
1690 Night
1681 Air
1674 ta
1663 it
1644 del
1637 LP
1614 Time
1612 Team
1603 Lake
1594 Hot
1592 engl
1579 Park
1568 Street
1568
1567 llä
1557 Mr
1556 an

2013-04-17

fi-jrc-acquis

Missing word forms

Frequency Word form
78640 EYVL
58715 auml
34648 the
32032 EUVL
31654 EUR
31497 of
23561 fi
23288 xml
23208 and
16017 ETA
14569 00
13408 la
12328 to
11236 sellaisenaan
10873 ouml
9330 ex
9165 mg
8985 ii
8782 for
8595 ks
8552 ml
8446 iv
8298 kyseessä
8027 di
7961 des
7583 CN
7226 000
6476 amp
6461 nbsp
6002 del
5540 du
5008 à
4970 le
4834 PL
4704 iii
4698 ETSK
4501 der
4442 Ks
4387 http
4361 is
4173 pk
4108 PIC
4065 The
4021 les
4019 CZ
3987 IEC
3981 by
3906 FILE
3861 UK
3851 eu
3783 Ltd
3772 with
3551 tiedoksiannettu
3492 die
3351 A01
3332 be
3320 CE
3167 Co
3151 Huom
3101 L02
3087 und
3083 European
2985 GmbH
2981 EKR
2908 int
2838 as
2763 της
2756 DK
2735 COMP
2732 na
2710 YTE
2683 lt
2635 mod
2607 yksiköiden
2563 un
2558 TIF
2527 or
2523 και
2490 EL
2460 Bank
2459 jrcC2006
2445 que
2388 TIFF
2373 pic
2299 nr
2284 at
2247 st
2221 comm
2177 that
2160 lle
2103 an
2099 AG
2069 L04
2048 την
2048 EHTY
2030 L01
2021 FI
1957 του
1955 La
1936 BE

fi-gutenberg

Missing word forms

Frequency Word form
854 ett
715 Mathieu
604 sitte
273 Tressilian
247 Varney
241 Constance
229 Servosse
222 Jaampa
201 Lily
200 kauvan
172 Morange
165 nämät
165 Mathieun
154 aivankuin
153 FALSTAFF
151 HOMSANTUU
149 Beauchêne
144 taaskin
143 Laagje
139 huoneesen
136 Mellet
129 ell
119 Séguin
113 Bathseba
109 Lambourne
106 Sérafine
101 ennenkin
100 itsekin
99 vaikk
92 Margreta
92 eteensä
87 Aarnold
85 Sitte
81 Warrington
81 olis
80 Comfort
79 ia
78 kiini
78 iin
76 ainoatakaan
75 Mr
75 frankia
74 OF
72 THE
72 PROJECT
72 GUTENBERG
72 Ett
72 EBOOK
72 Blaise
72 Beidermann
71 kylläksi
71 issa
70 yht’äkkiä
67 Kyllähän
67 kehoitti
67 katteini
67 Constancen
66 GLOSTER
65 jälellä
64 Walters
64 Couteauska
64 Burleson
63 nuot
62 Tressilianin
62 kentiesi
61 Boutan
60 Wayland
60 Miks
60 Beauchênen
59 Sussexin
58 Ambroise
57 Nämät
56 Laagjen
56 itsekään
55 Verdenton
54 VÖRSKY
54 Pieter
54 Norinen
54 Metta
53 Amy
52 viimeinkin
52 ROSAMUNDA
52 Reine
52 ensimäinen
51 Jaampan
50 Vaughn
50 mukaansa
50 Céleste
49 Morangen
48 Santerre
48 miks
48 eroittaa
47 Mathieutä
47 lle
47 ille
47 Hortobágyin
47 ensimäisen
46 seksmanni
46 Lepailleur
46 kysäsi

fiwiki

Missing word forms

Frequency Word form
70144
41580 of
40683 The
40217 amp
34350 000
32546 the
17465 New
17408 HMS
16509 and
14950 jpg
14656 http
12973 UTC
11145 ndash
10045 fi
9105 to
8516 EEST
8352 EM
6535 EET
6240 is
5652 org
5512 FC
5464 ssa
5427 World
5186 svg
5131 for
4995 ssä
4821 C3
4744 Records
4453 La
4393 com
4093 ry
4003 Black
3991 St
3894 You
3334 mukaansa
3308 Music
3231 php
3152 as
3141 kyseessä
3086 la
3059 Red
3021 vuosis
3010 vuosie
2965 American
2929 index
2878 Le
2687 GP
2652 JPG
2652 al
2637 lle
2619 National
2492 It
2416 All
2333 with
2302 by
2296 that
2290 Big
2275 Real
2240 F1
2148 Star
2120 from
2119 Prix
2118 Club
2086 Golden
2083 Blue
2078 Recordsin
2050 at
1996 haltuunsa
1987 One
1964 El
1946 html
1935 File
1893 sta
1888 Pohjois-Amerikassa
1876 hjois
1873 di
1841 der
1833 Ää
1808 Bob
1776 muttei
1767 an
1764 Pohjois-Amerikan
1757 AHL
1736 be
1703 ta
1701 Night
1690 des
1674 Life
1665 it
1663 Air
1661 del
1626 Team
1610 Lake
1598 Hot
1590 engl
1583 Street
1579 Park
1570 or
1562
1560 Mr

2013-08-29

(some regressions in tokenising…)

fi-jrc-acquis

Missing word forms

Frequency Word form
58715 auml
46848 fi
34689 the
31455 of
23288 xml
23211 and
10873 ouml
10680 NTANUT
10074 setus
9510 SETUKSEN
9475 setuksen
8766 for
7935 euvoston
7881 des
7721 almistus
6476 amp
6461 nbsp
6314 EUVOSTO
5984 del
5768 äin
5590 du
5162 ämä
5128 le
4855 iiden
4578 der
4387 http
4377 is
4295 euvosto
4108 PIC
4065 les
4033 by
3925 äiden
3883 eu
3772 with
3736 SETUS
3503 oimassaolo
3497 die
3349 A01
3334 be
3101 L02
3094 und
2989 int
2885 aikka
2763 της
2758 an
2733 que
2696 lt
2676 Ltd
2673 na
2635 mod
2588 or
2523 και
2502 st
2459 jrcC2006
2455 un
2373 pic
2358 enäjän
2310 nr
2250 merikan
2221 comm
2177 that
2161 uoden
2083 rtugalin
2069 L04
2048 την
2031 iron
2030 L01
2025 äitä
1957 του
1925 il
1910 istetaan
1851 al
1830 yhteis
1821 da
1809 Fischer
1804 für
1800 dans
1781 Boel
1775 το
1775 state
1775 een
1753 della
1744 Mariann
1738 uonna
1720 pour
1708 hjois
1673 των
1672 une
1659 will
1645 setuksessa
1645 almistajan
1644 Fax
1604 this
1598 äissä
1590 που
1569 County
1564 pean
1563 iketen
1554 lle
1532 are

fi-gutenberg

Missing word forms

Frequency Word form
715 Mathieu
604 sitte
512 iin
448 nna
273 Tressilian
241 Constance
229 Servosse
222 Jaampa
222 arney
211 ntti
201 Lily
200 kauvan
172 Morange
166 mun
165 Mathieun
154 aivankuin
153 minuun
153 FALSTAFF
151 HOMSANTUU
149 Beauchêne
144 taaskin
144 aan
143 Laagje
136 Mellet
136 huoneesen
129 ell
126 ille
119 Séguin
113 Bathseba
109 Lambourne
108 muutaman
106 Sérafine
99 vaikk
96 nnan
94 monen
92 Margreta
86 ihdoin
85 Sitte
84 aikka
81 Warrington
81 olis
80 ntin
79 ia
78 kiini
77 issa
76 ntero
76 ainoatakaan
75 frankia
75 alentine
74 OF
72 THE PROJECT
72 GUTENBERG
72 EBOOK
71 kylläksi
71 Beidermann
68 Mitäs
68 arnold
67 nni
67 Kyllähän
67 kehoitti
67 katteini
67 Constancen
66 GLOSTER
65 jälellä
65 ielä
64 Walters
64 iilo
64 Couteauska
64 Burleson
63 rnold
63 fort
62 Tressilianin
62 kentiesi
61 Boutan
60 Wayland
60 Miks
60 Beauchênen
59 ta
59 Sussexin
57 äin
56 Laagjen
55 tuolle
55 mbroise
54 ÖRSKY
54 Pieter
54 Metta
54 anha
53 illiam
52 viimeinkin
52 tuostakin
52 ROSAMUNDA
52 Reine
52 nton
52 my
52 Mun
52 ika
52 ensimäinen
51 Jaampan
51 inoastaan
51 hjan

fiwiki

Missing word forms

Frequency Word form
70144
47060 uonna
41536 of
40163 amp
32621 the
17399 HMS
17314 hjois
16631 ew
15931 and
14950 jpg
14656 http
14316 enäjän
12973 UTC
11571 lus
11145 ndash
10200 uoden
10179 fi
8516 EEST
8169 euvostoliiton
6717 aikka
6536 EET
6323 äin
5656 org
5544 is
5498 ssa
5186 svg
5078 for
5068 an
5019 iitattu
4964 uosina
4901 enäjällä
4825 C3
4789 ämä
4675 Records
4673 muutaman
4583 ykyään
4445 com
4139 lbumi
4010 erkkoviite
3896 You
3831 ykyisin
3754 uodesta
3553 imeke
3390 ustralian
3359 orld
3343 nna
3248 al
3231 php
3208 iisissa
3144 The
3133 frikan
3125 iron
3104 iiden
3067 ssä
3021 vuosis
3010 vuosie
2993 äiden
2987 lbumin
2940 index
2777 euvostoliitto
2650 JPG
2619 äistä
2598 iipurin
2582 rin
2565 merican
2464 ntti
2453 ational
2393 by
2382 äitä
2332 with
2299 that
2243 F1
2170 enäjä
2130 leksanteri
2119 from
2100 ustraliassa
2098 lueen
2096 merikan
2091 ain
2073 der
2067 Recordsin
2066 Club
2049 iinpä
2033 Life
2030 luksen
1969 lbert
1955 iitä
1946 html
1943 olden
1934 File
1906 teenan
1903 älimeren
1897 tar
1833 Ää
1824 lle
1791 or
1762 be
1760 tlantin
1750 des
1723 wer

2014-10-14

europarl-v7.fi-en.fi

100 most common missing word forms

Frequency Word form
2741 ulko
1485 perustellusti
1098 ssa
1072 GUE/NGL-ryhmän
1023 ALDE-ryhmän
991 New
946 Verts/ALE-ryhmän
893 sosiaali
848 Saddam
807 teollis
793 José
792 of
759 the
747 Ashton
686 Patten
660 Verheugen
657 UEN-ryhmän
650 2007-2013
629 Fischler
618 SIS
573 Laekenin
559 sta
540 uhan
512 Hamasin
511 rakentavasti
486 Tyynenmeren
459 IND/DEM-ryhmän
453 SL
452 BG
442 Poettering
440 kattavasti
432 Frattini
431 Barón
427 for
414 and
393 Posselt
393 Monti
391 ta
384 Barnier
384 Alzheimerin
383 Ecofin-neuvoston
378 25 jäsenvaltion
376 sanotusti
375 Santer
374 European
372  toukokuuta
372 Swoboda
371 Saharov-palkinnon
369 Aung
354 sisä
352 lle
345 vuoden 2005
344 Palacio
342 Wallström
340 Amnesty
336 vuonna 2004
333 El
331 vuoden 2006
328 Bolkesteinin
325 EGR:n
325 2000-2006
323 stä
317 Natura 2000
316 Cohn-Bendit
315 Lamy
313 zu
312 Ferrero-Waldner
306 Graefe
305 Bolkestein
301 Pattenin
301 lla
299 EGR
297 S&D-ryhmän
294 Reding
294 Life
293 iin
292 Romano
284 vuonna 2005
284 Vitorino
283 Swobodan
283 KOM(2001
281  maaliskuuta
280 Sarkozy
279 Bögen
276 Hamas
275  lokakuuta
272 vuonna 2003
271 vuoteen 2010
271 González
269 Lehnen
268 Corbettin
268 Barrot
263 T?et?enian
257 Elmar
256 Verheugenin
253 Kambod
252 Milosevi
252 Méndez
252 Jarzembowski

fiwiki-latest-pages-articles

100 most common missing word forms

Frequency Word form
85712
44365 of
44037 The
33943 the
19807 New
17481 HMS
17413 and
15237 http
12804 UTC
11049 EEST
7630 EET
6301 ²
5908 World
5606 for
5317 Records
4375 St
3935 You
3921
3773 Music
3436 is
3406 Red
3019 National
2910 vuosis
2897 vuosie
2738 &#124
2678 &nbsp
2532 with
2461 Big
2352 by
2324 Golden
2324 Blue
2320 Club
2250 Recordsin
2215 2008–2009
2199 All
2148 Star
2121 El
2118 One
2113 from
2106 that
2104 2007–2008
2046 2009–2010
2007 10 000
1920 des
1888 2010–2011
1875 Ää
1873 o.s
1858 2006–2007
1855 del
1836 Night
1774 Pohjois
1772 Park
1768 Team
1762 :n
1757 Air
1740 Life
1729 Lake
1723 engl
1709 5 000
1688 2005–2006
1679 Street
1678 2011–2012
1674 Serie
1650 be
1635 death
1608 och
1599 Time
1595 1 500
1587 Your
1582
1565 black
1552 or
1552 du
1544 Tyynenmeren
1544 Hockey
1537 Little
1530 Group
1525 3 000
1509
1507 Is
1504 Force
1503 Fort
1471 Tour
1467 José
1455 Of
1413 British
1410 Jr
1406 Company
1405 Billboard
1398 League
1395 Dark
1392 °C
1390 Billy
1390 2012–2013
1381 This
1323 Nick
1321 Fameen
1305 School
1302 an
1288 hard

ftb3.1

100 most common missing word forms

Frequency Word form
14223 =
10563 of
9381 the
7640 and
3772 ————————————————–
3376 PIC
3177 for
2782 ex
2644 amp
2564 A01
2530 des
1544 L01
1543 L02
1443 du
1423 nr
1361 lt
1331 le
1270 LOOPU
1239 with
1209 p.m
1175 by
1143 a.
1136 Ltd
1125 The
1116 Classification
1088 Limites
1088 Klassificering
1050 à
1041 les
1033 L03
1032 L04
975 or
949 European
912 b.
902 A00
891 be
820 ANNEX
759 C10
717 und
705 is
682 Nr
613 EKT
602 Commission
601 spp
587 Cas
572 dans
564 Ministry
559 that
554 Concentration
554 concentration
554 ¼
552 limits
552 Labelling
548 Kennzeichnung
548 concentrazione
547 concentración
546 Clasificación
545 Classificazione
545 Classificação
544 ÅðéóÞìáíóç
544 Rotulagem
544 óõãêÝíôñùóçò
544 Ôáîéíüìçóç
544 ñéá
544 Märkning
544 Limiti
544 Límites
544 Konzentrationsgrenzwerte
544 Koncentrationsgrænser
544 Koncentrationsgränser
544 Kenmerken
544 Indeling
544 Étiquetage
544 Etikettering
544 Etichettatura
544 Einstufung
544 Concentratiegrenzen
544 concentração
542 Etiquetado
535 S00
531 µ
507 Fax
499 an
491 br
489 c.
486 gt
485 «
484 Department
478 pic
476 voor
475 National
470 für
469 http
465 CdR
448 ÷
447 RCE
447 pour
436 un
434 EMOTR:n
434 2.2.1

gutenberg-fi

100 most common missing word forms

Frequency Word form
6984 ett’ei
5921 «
1967 =
1841 huoneesen
1811 j.n.e
1797 by
1764 hälle
1690 of
1590 -Ei
1575 y.m
1481 ett’en
1435 ainoasti
1341 waan
1318 ol
1250 kiini
1211 jok
1210 parooni
1154 och
1141 mr
1107 -ja
1103 oisi
1102 d’Artagnan
1067 jälellä
1057 viel
1055 wielä
1026 Mit
996 Glenarvan
994 -Niin
969 Natasha
943 s.o
941 oliwat
935 Kenelm
925 vaikk’ei
917 -No
903 –sanoi
902 -En
879 Jurgis
869 Monte-Cristo
866 Paganel
856 Project
851 Produced
850 End
844 yht’aikaa
819 sill’aikaa
816 the
814 SOLNESS
801 Villefort
797 Lents
795 ett’eivät
793 vaikk
791 Vaikk
775 à
774 Bertelsköld
772 Vinitius
764 kaikk
752 Il
746 vv
741 mit
740 Gervaise
736 -Se
728 osotti
728 -Minä
726 -Ja
721 Mathieu
720 Kirj
718 osottaa
718 -Mitä
717 Emilio
708 Jesus
699 ain
697 Viel
681 Danglars
677 senjälkeen
673 Raskolnikov
672 Gutenberg
667 mailman
661 EBook
656 kysäsi
643 jälestä
640 Siks
621 le
616 Morrel
615 Denise
605 erääsen
603 Siell
603 samoinkuin
602 vähäsen
598 don
594 Rostof
590 Peggotty
588 woi
584 att
581 BERNICK
578 kauvas
567 Mik
563 Sakris
563 Kuink
559 des
556 Rosmer
555 Kaikk

jrc-fi

100 most common missing word forms

| Frequency | Word form | |:————–|:————–| | 34629 | the | | 31456 | of | | 23079 | and | | 21091 | = | | 17109 | EUR/100 | | 11418 | p.m | | 9198 | ex | | 8768 | for | | 7959 | des | | 5531 | du | | 4863 | à | | 4627 | le | | 4409 | 31.12.2008 | | 4399 | EUR/t | | 4239 | http | | 4011 | The | | 4002 | les | | 3957 | by | | 3877 | PIC | | 3772 | with | | 3554 | Ltd | | 3489 | die | | 3350 | A01 | | 3304 | is | | 3140 | be | | 3118 | amp | | 3101 | L02 | | 3073 | und | | 3044 | Commission | | 3025 | European | | 2962 | 91/414/ETY | | 2759 | της | | 2565 | mod | | 2502 | και | | 2445 | que | | 2418 | Bank | | 2380 | or | | 2324 | na | | 2319 | 1999/468/EY | | 2292 | nr | | 2230 | 2006/C | | 2198 | KOM(2005 | | 2176 | that | | 2114 | 30.4.2004 | | 2069 | L04 | | 2044 | την | | 2030 | L01 | | 2021 | pic | | 2010 | :a | | 1988 | 1784/2003 | | 1958 | un | | 1955 | του | | 1867 | milj | | 1836 | 1782/2003 | | 1832 | № | | 1818 | an | | 1805 | für | | 1801 | Fischer | | 1797 | dans | | 1781 | Boel | | 1775 | το | | 1753 | della | | 1744 | Mariann | | 1728 | 1.1.2006 | | 1720 | pour | | 1712 | :n | | 1683 | 70/156/ETY | | 1671 | των | | 1669 | 26.6.1999 | | 1664 | 1.1.2007 | | 1659 | will | | 1638 | EUR/kg | | 1627 | Fax | | 1613 | 3223/94 | | 1604 | this | | 1598 | County | | 1595 | 2007–2013 | | 1594 | S.A | | 1590 | που | | 1578 | 1260/2001 | | 1530 | are | | 1520 | het | | 1507 | p/st | | 1481 | from | | 1479 | 1255/1999 | | 1461 | A00 | | 1438 | Limited | | 1431 | KOM(2004 | | 1431 | 139/2004 | | 1430 | για | | 1416 | να | | 1414 | Act | | 1401 | eG | | 1396 | il | | 1393 | 21.10.2003 | | 1385 | KOM(2006 | | 1366 | 01.01.2006 | | 1357 | από | | 1344 | lopull | | 1344 | L03 | ## 2015-03-26 coverages

europarl-v7.fi-en.fi

100 most common missing word-forms

Frequency Word-form
2741 ulko
1098 ssa
1072 GUE/NGL-ryhmän
1023 ALDE-ryhmän
991 New
946 Verts/ALE-ryhmän
893 sosiaali
848 Saddam
807 teollis
793 José
792 of
759 the
747 Ashton
725 OLAFin
686 Patten
660 Verheugen
657 UEN-ryhmän
650 2007-2013
629 Fischler
618 SIS
573 Laekenin
571 NATOn
559 sta
540 uhan
459 IND/DEM-ryhmän
453 SL
452 BG
442 Poettering
440 kattavasti
432 Frattini
431 Barón
427 for
414 and
393 Posselt
393 Monti
391 ta
384 Barnier
384 Alzheimerin
383 Ecofin-neuvoston
378 25 jäsenvaltion
376 sanotusti
375 Santer
374 European
372  toukokuuta
372 Swoboda
371 Saharov-palkinnon
369 Aung
354 sisä
352 lle
345 vuoden 2005
344 suunnattava
344 Palacio
342 Wallström
340 Amnesty
336 vuonna 2004
333 El
331 vuoden 2006
328 Bolkesteinin
325 EGR:n
325 2000-2006
323 stä
317 Natura 2000
316 Cohn-Bendit
315 Lamy
313 zu
312 Ferrero-Waldner
310 EMUn
306 Graefe
301 lla
299 EGR
297 S&D-ryhmän
294 Reding
294 Life
293 iin
292 Romano
284 vuonna 2005
284 Vitorino
283 Swobodan
283 KOM(2001
281  maaliskuuta
280 Sarkozy
279 Bögen
276 Hamas
275  lokakuuta
272 vuonna 2003
271 vuoteen 2010
271 González
269 Lehnen
268 Corbettin
268 Barrot
263 T?et?enian
257 Elmar
256 Verheugenin
253 Kambod
252 Milosevi
252 Méndez
252 Jarzembowski
246 Europe
245 Schreyer
245 Prestigen

fiwiki-latest-pages-articles

100 most common missing word-forms

Frequency Word-form
45248 The
45195 of
34418 the
20643 New
17643 and
17555 HMS
15252 http
12814 UTC
11343 EEST
8640 EET
6140 World
5788 for
5545 Records
4560 St
4017 You
3923 Music
3579 Red
3445 is
3131 National
2873 vuosis
2856 vuosie
2725 &#124
2585 with
2537 Big
2480 Golden
2413 Blue
2396 by
2390 Club
2338 2008–2009
2319 Recordsin
2246 All
2208 2007–2008
2184 2009–2010
2170 from
2165 One
2165 El
2163 Star
2089 10 000
2051 2010–2011
2049 that
2003 o.s
1981 des
1965 2006–2007
1877 Night
1860 2011–2012
1841 Pohjois
1837 Team
1827 Park
1819 :n
1799 Serie
1798 engl
1795 Lake
1788 Air
1785 Life
1775 2005–2006
1762 5 000
1741 suom
1730 Street
1694 PlayStation
1674 death
1668 be
1645 1 500
1643 Time
1633 Hockey
1625 Your
1621 och
1620 Group
1617 du
1599 black
1586 3 000
1578 2012–2013
1576 Fort
1561 Little
1555 Tour
1555 Force
1546 Is
1535 °C
1530 Billboard
1510 José
1487 Billy
1475 League
1471 Jr
1454 Of
1435 Company
1431 British
1422 Dark
1416 This
1406
1377 Nick
1351 School
1347 Al
1345 2004–2005
1335 nyk
1334 Fameen
1334 2013–2014
1322 Bay
1314 Las
1301 hard
1294 Port
1291 an

ftb3.1

100 most common missing word-forms

Frequency Word-form
33216 the
30392 of
22408 and
9051 ex
8663 for
7718 des
6051 amp
5287 du
4751 à
4703 le
4489 p.m
4409 31.12.2008
4039 http
3974 The
3874 les
3836 by
3701 with
3382 PIC
3349 A01
3319 Ltd
3302 die
3242 is
3101 L02
3042 be
3011 European
3003 und
2705 της
2517 και
2488 na
2440 lt
2413 Bank
2399 que
2246 nr
2186 europa.eu.int
2145 pic
2132 an
2130 that
2094 comm
2069 L04
2067 2007—2013
2043 un
2030 L01
1950 την
1941 του
1890 a.
1825 mod
1791 New
1751 το
1749 dans
1732 für
1718 della
1685 pour
1667 state
1665 των
1639 Fax
1620 1.1.2007
1604 County
1601 b.
1599 will
1582 που
1547 this
1524 st
1497 are
1497 Act
1463 S.A
1461 A00
1459 het
1430 για
1416 να
1414 Limited
1408 ta
1404 from
1400 1.1.2006–
1399 eG
1365 01.01.2006-
1356 een
1346 η
1344 L03
1344 il
1343 από
1329 ssa
1297 add
1293 με
1287 32-2
1274 voor
1273 Tel
1270 LOOPU
1268 not
1264 which
1250 Nr
1203 general
1182 Société
1166 S00
1152 SIS
1149 other
1149 OLAFin
1134 under
1131 une
1130 Classification
1130 che

gutenberg-fi

100 most common missing word-forms

Frequency Word-form
7814 ett’ei
2488 d’Artagnan
2123 j.n.e
2009 by
1941 huoneesen
1901 of
1676 y.m
1628 ett’en
1590 -Ei
1517 mr
1470 ol
1462 ainoasti
1426 waan
1409 jok
1389 kiini
1272 parooni
1255 jälellä
1211 oisi
1174 och
1163 viel
1130 Mit
1121 wielä
1108 -ja
1079 vaikk’ei
1058 s.o
1048 St
1024 Aramis
994 -Niin
976 don
975 yht’aikaa
969 Natasha
953 Project
953 End
948 oliwat
944 Produced
935 Kenelm
926 the
917 -No
904 osotti
903 –sanoi
903 -En
894 vaikk
887 sill’aikaa
880 Uli
879 Jurgis
875 ett’eivät
869 Monte-Cristo
866 Paganel
862 Vaikk
856 senjälkeen
847 mit
822 Mabel
818 Kirj
814 SOLNESS
810 à
802 osottaa
801 Villefort
797 Lents
796 kaikk
795 Smoke
779 jälestä
774 Bertelsköld
772 Vinitius
759 Viel
758 mrs
756 Il
754 Jesus
753 vv
748 Gutenberg
743 ain
740 Gervaise
736 -Se
733 EBook
728 -Minä
728 Mathieu
726 -Ja
725 Portos
720 kysäsi
719 mailman
718 -Mitä
717 Emilio
715 kauvas
708 samoinkuin
706 D’Artagnan
702 Siell
688 Siks
684 vähäsen
681 Danglars
673 Raskolnikov
662 Suom
654 erääsen
649 le
640 HILDE
624 Mik
620 Kuink
616 Morrel
615 Denise
606 Lucy
604 Kaikk
604 des

jrc-fi

100 most common missing word-forms

| Frequency | Word-form | |———-:|:———-| | 34629 | the | | 31456 | of | | 23079 | and | | 17109 | EUR/100 | | 11418 | p.m | | 9198 | ex | | 8768 | for | | 7959 | des | | 5531 | du | | 4863 | à | | 4627 | le | | 4409 | 31.12.2008 | | 4399 | EUR/t | | 4239 | http | | 4011 | The | | 4002 | les | | 3957 | by | | 3877 | PIC | | 3772 | with | | 3554 | Ltd | | 3489 | die | | 3350 | A01 | | 3304 | is | | 3140 | be | | 3118 | amp | | 3101 | L02 | | 3073 | und | | 3025 | European | | 2962 | 91/414/ETY | | 2759 | της | | 2565 | mod | | 2502 | και | | 2445 | que | | 2418 | Bank | | 2324 | na | | 2319 | 1999/468/EY | | 2292 | nr | | 2230 | 2006/C | | 2198 | KOM(2005 | | 2176 | that | | 2114 | 30.4.2004 | | 2069 | L04 | | 2044 | την | | 2030 | L01 | | 2021 | pic | | 2010 | :a | | 1988 | 1784/2003 | | 1958 | un | | 1955 | του | | 1867 | milj | | 1836 | 1782/2003 | | 1818 | an | | 1805 | für | | 1801 | Fischer | | 1797 | dans | | 1781 | Boel | | 1775 | το | | 1753 | della | | 1744 | Mariann | | 1728 | 1.1.2006 | | 1720 | pour | | 1712 | :n | | 1683 | 70/156/ETY | | 1671 | των | | 1669 | 26.6.1999 | | 1664 | 1.1.2007 | | 1659 | will | | 1638 | EUR/kg | | 1627 | Fax | | 1613 | 3223/94 | | 1604 | this | | 1598 | County | | 1595 | 2007–2013 | | 1594 | S.A | | 1590 | που | | 1578 | 1260/2001 | | 1530 | are | | 1520 | het | | 1507 | p/st | | 1481 | from | | 1479 | 1255/1999 | | 1461 | A00 | | 1438 | Limited | | 1431 | KOM(2004 | | 1431 | 139/2004 | | 1430 | για | | 1416 | να | | 1414 | Act | | 1401 | eG | | 1396 | il | | 1393 | 21.10.2003 | | 1385 | KOM(2006 | | 1366 | 01.01.2006 | | 1357 | από | | 1344 | lopull | | 1344 | L03 | | 1343 | η | | 1343 | 2005/C | | 1322 | 1493/1999 | | 1312 | LOOPU | ## 2015-09-04 ### europarl-v7.fi-en.fi #### 100 most common missing word-forms

Frequency Word-form
2741 ulko
1098 ssa
1072 GUE/NGL-ryhmän
1023 ALDE-ryhmän
991 New
946 Verts/ALE-ryhmän
893 sosiaali
848 Saddam
807 teollis
793 José
792 of
759 the
747 Ashton
725 OLAFin
686 Patten
660 Verheugen
657 UEN-ryhmän
650 2007-2013
629 Fischler
618 SIS
573 Laekenin
571 NATOn
559 sta
540 uhan
459 IND/DEM-ryhmän
453 SL
452 BG
442 Poettering
432 Frattini
431 Barón
427 for
414 and
393 Posselt
393 Monti
391 ta
384 Barnier
384 Alzheimerin
383 Ecofin-neuvoston
378 25 jäsenvaltion
376 sanotusti
375 Santer
374 European
372  toukokuuta
372 Swoboda
371 Saharov-palkinnon
369 Aung
354 sisä
352 lle
345 vuoden 2005
344 suunnattava
344 Palacio
342 Wallström
340 Amnesty
336 vuonna 2004
333 El
331 vuoden 2006
328 Bolkesteinin
325 EGR:n
325 2000-2006
323 stä
317 Natura 2000
316 Cohn-Bendit
315 Lamy
313 zu
312 Ferrero-Waldner
310 EMUn
306 Graefe
301 lla
299 EGR
297 S&D-ryhmän
294 Reding
294 Life
293 iin
292 Romano
284 vuonna 2005
284 Vitorino
283 Swobodan
283 KOM(2001
281  maaliskuuta
280 Sarkozy
279 Bögen
276 Hamas
275  lokakuuta
272 vuonna 2003
271 vuoteen 2010
271 González
269 Lehnen
268 Corbettin
268 Barrot
263 T?et?enian
257 Elmar
256 Verheugenin
253 Kambod
252 Milosevi
252 Méndez
252 Jarzembowski
246 Europe
245 Schreyer
245 Prestigen
245 Jarzembowskin

fiwiki-latest-pages-articles

#### 100 most common missing word-forms

Frequency Word-form
94591
46283 of
46085 The
35100 the
21261 New
18075 and
17855 HMS
15070 http
12831 UTC
12334 EEST
8784 EET
6372 World
5948 for
5662 Records
4636 St
4145 You
4054 Music
3660 Red
3498 is
3219 National
2826 vuosis
2819 &nbsp
2806 vuosie
2734 &#124
2674 with
2611 Big
2555 Golden
2461 Blue
2458 Club
2453 by
2418 Recordsin
2390 2008–2009
2308 All
2254 2007–2008
2253 from
2229 One
2227 2009–2010
2212 El
2185 Star
2140 10 000
2130 2010–2011
2110 o.s
2048 that
2018 des
2014 2006–2007
1960 Serie
1934 Night
1922 2011–2012
1916 Team
1892 Ää
1892 Pohjois
1874 Park
1856 :n
1853 Air
1843 engl
1838 Lake
1831 suom
1825 Life
1810 2005–2006
1780 5 000
1771 Street
1752 PlayStation
1701 Group
1701 be
1680 du
1678 1 500
1676 death
1674 Time
1672 Your
1672 Hockey
1649 2012–2013
1634 och
1631 Fort
1622 °C
1618
1616 3 000
1609 black
1598 Force
1587 Tour
1587 Billboard
1585 Little
1582 Is
1568 José
1544 Billy
1539 League
1511 Jr
1508 British
1478 Company
1464 Dark
1449 This
1435 Of
1414 Nick
1400 nyk
1398 2013–2014
1388
1384 School
1379 2004–2005
1372 Al
1354 hard
1354 Fameen

ftb3.1

#### 100 most common missing word-forms

Frequency Word-form
33216 the
30392 of
22408 and
9051 ex
8663 for
7718 des
6051 amp
5287 du
4751 à
4703 le
4489 p.m
4409 31.12.2008
4039 http
3974 The
3874 les
3836 by
3701 with
3382 PIC
3349 A01
3319 Ltd
3302 die
3242 is
3101 L02
3042 be
3011 European
3003 und
2705 της
2517 και
2488 na
2440 lt
2413 Bank
2399 que
2246 nr
2186 europa.eu.int
2145 pic
2132 an
2130 that
2094 comm
2069 L04
2067 2007—2013
2043 un
2030 L01
1950 την
1941 του
1890 a.
1825 mod
1791 New
1751 το
1749 dans
1732 für
1718 della
1685 pour
1667 state
1665 των
1639 Fax
1620 1.1.2007
1604 County
1601 b.
1599 will
1582 που
1547 this
1524 st
1497 are
1497 Act
1463 S.A
1461 A00
1459 het
1430 για
1416 να
1414 Limited
1408 ta
1404 from
1400 1.1.2006–
1399 eG
1365 01.01.2006-
1356 een
1346 η
1344 L03
1344 il
1343 από
1329 ssa
1297 add
1293 με
1287 32-2
1274 voor
1273 Tel
1270 LOOPU
1268 not
1264 which
1250 Nr
1203 general
1182 Société
1166 S00
1152 SIS
1149 other
1149 OLAFin
1134 under
1131 une
1130 Classification
1130 che

gutenberg-fi

#### 100 most common missing word-forms

Frequency Word-form
8461 ett’ei
2488 d’Artagnan
2332 j.n.e
2233 y.m
2219 by
2119 of
2111 huoneesen
1726 ett’en
1626 mr
1624 kiini
1590 -Ei
1584 ol
1531 ainoasti
1465 jok
1454 jälellä
1445 parooni
1426 waan
1343 Oblomov
1341 s.o
1239 viel
1221 och
1173 vaikk’ei
1170 Mit
1121 wielä
1108 senjälkeen
1108 -ja
1067 St
1064 yht’aikaa
1054 End
1051 Project
1040 Produced
1040 osotti
1035 the
1024 Aramis
1018 Kitty
1002 don
1001 Bräsig
994 -Niin
969 vaikk
969 Natasha
948 oliwat
947 ett’eivät
935 sill’aikaa
935 Kenelm
927 Kirj
917 -No
913 samoinkuin
912 Jesus
903 –sanoi
903 -En
880 Uli
879 Vaikk
879 Jurgis
877 mit
874 osottaa
869 Monte-Cristo
866 Paganel
865 jälestä
851 à
845 kaikk
830 Gutenberg
822 Mabel
820 kysäsi
816 Suom
814 SOLNESS
814 EBook
813 Smoke
804 kauvas
804 ain
802 mailman
801 Villefort
797 Vronski
797 Lents
794 Viel
774 Bertelsköld
772 Vinitius
771 Siell
769 mrs
766 vv
766 Il
763 loordi
743 vähäsen
740 Gervaise
736 -Se
728 -Minä
728 Mathieu
726 -Ja
725 Portos
718 -Mitä
717 Emilio
715 Siks
706 D’Artagnan
696 erääsen
693 le
681 Danglars
680 mylord
673 Raskolnikov
658 mailmassa
655 siell
650 Jesuksen

jrc-fi

#### 100 most common missing word-forms

Frequency Word-form
34629 the
31456 of
23079 and
17109 EUR/100
11418 p.m
9198 ex
8768 for
7959 des
5531 du
4863 à
4627 le
4409 31.12.2008
4399 EUR/t
4239 http
4011 The
4002 les
3957 by
3877 PIC
3772 with
3554 Ltd
3489 die
3350 A01
3304 is
3140 be
3118 amp
3101 L02
3073 und
3025 European
2962 91/414/ETY
2759 της
2565 mod
2502 και
2445 que
2418 Bank
2324 na
2319 1999/468/EY
2292 nr
2230 2006/C
2198 KOM(2005
2176 that
2114 30.4.2004
2069 L04
2044 την
2030 L01
2021 pic
2010 :a
1988 1784/2003
1958 un
1955 του
1867 milj
1836 1782/2003
1818 an
1805 für
1801 Fischer
1797 dans
1781 Boel
1775 το
1753 della
1744 Mariann
1728 1.1.2006
1720 pour
1712 :n
1683 70/156/ETY
1671 των
1669 26.6.1999
1664 1.1.2007
1659 will
1638 EUR/kg
1627 Fax
1613 3223/94
1604 this
1598 County
1595 2007–2013
1594 S.A
1590 που
1578 1260/2001
1530 are
1520 het
1507 p/st
1481 from
1479 1255/1999
1461 A00
1438 Limited
1431 KOM(2004
1431 139/2004
1430 για
1416 να
1414 Act
1401 eG
1396 il
1393 21.10.2003
1385 KOM(2006
1366 01.01.2006
1357 από
1344 lopull
1344 L03
1343 η
1343 2005/C
1322 1493/1999
1312 LOOPU