>From consens@pip.dknet.dk Wed Oct 29 11:30:51 1997


Seminar ved Inst. kjemiteknikk, NTNU, 12.11.1997 kl.14.30 - 15.30.=20

-------------------------------------------------------------------
Prediktiv validering og verifisering av multivariable =
kalibrerings-modeller i kjemometri: Bruk av test-sett eller =
kryss-validering ?
-------------------------------------------------------------------


Harald Martens
	Prof.II, Kjemometri, Institutt for fysikalsk kjemi,NTNU
	Gjesteprof. Kjemometri, Institutt for bioteknologi, DTU, Lyngby
	Forskningsgruppeleder, Internatl Digital Technologies, GmbH, Muenchen


Moderne mange-kanals m=E5leteknikk og myk multivariabel kalibrering i =
latente variabler gj=F8r det generelt lettere =E5 g=E5 fra forenklede =
lab-modeller til  virkelige, kompliserte prosesser og systemer. =
Kjemometrisk 'unscrambling  av 'skitne' kjemiske-tekniske systemer =
v.h.a. statisk eller dynamisk PLS Regresjon  har f=F8rt til raskere, =
billigere og mer presis kvantitativ analyse. Med brukervennlig grafikk =
og automatisk feilvarsling har PLSR vist set =E5 gi mer effektiv, =
tverrfaglig kunnskaps-generering og =F8ket menneskelig kreativitet.=20
NFR ga ifjor kjemometrikere fra UiB og Norsk Hydro sin forskningspris =
for beste anvendte forskning; Norsk Hydro og andre store bedrifter =
st=E5r frem i pressen og bekrefter =E5rlige innsparinger i 100-mill. =
klassen p.g.a. innf=F8ring av kjemometriske metoder. Norge og Sverige =
leder an internasjonalt i teori-utviklingen og i innf=F8ringen av =
kjemometri i moderne flerkanals instrumentering og i prosess-industrien. =
Norske kjemometrikere fikk ifjor 3 prestisjetunge internasjonale =
forskningspriser. Trondheim-produsert programvare (The UNSCRAMBLER fra =
CAMO ASA) er blitt noe av en internasjonal industristandard  innen =
kjemometri/kvalimetri/infometri.
Deler av denne suksess-historien er basert p=E5 teknikker som ikke =
beh=F8ver =E5 kalles kjemometri, f.eks. bruken reduserte =
fors=F8ksplaner. Selv om ordet 'kjemometri' har fungert godt som et =
'buzzword'  for innf=F8ring av effektive nye metoder i FoU i mange =
kretser, har ordet derfor vekket litt aggresjoner i visse kretser, ikke =
minst innen norsk statistikk og norsk kjemiteknikk. N=E5r vi n=E5 =
pr=F8ver =E5 gjen-etablere kjemometrien ved NTNU etter professor Odd =
Borgens bortgang, =F8nsker vi maksimum samarbeide og minimum friksjon i =
v=E5rt forhold til kjemiteknikk, kybernetikk og statistikk: Vi har noe =
=E5 l=E6re av hverandre, og har stort sett felles m=E5l og felles =
'fiender'.=20

En av v=E5re felles fiender er  den data-analytiske analfabetisme hos =
mange uteksaminerte kjemi-kandidater. Dette faktum m=E5 vi i fellesskap =
f=E5 gjort noe med! La oss utvikle en data-analytisk =
kompetanse-=F8kologi ved NTNU: Alle m=E5 ikke kunne alt, men =
tilstrekkelig mange m=E5 kunne tilstrekkelige mye, og vite hvor de kan =
f=E5 hjelp n=E5r det kniper!

Myk, data-drevet modellering krever tilgjengelighet av GODE DATA - =
presise, n=F8yaktive, representative og tilstrekkelig komplekse til =E5 =
favne mangfoldet i den delen av virkeligheten som skal modelleres. =
Dessuten m=E5 man OPTIMERE BRUKEN av de tilgjengelige dataene: Man m=E5 =
modellere s=E5 meget som mulig av den p=E5litelige STRUKTUREN i dataene, =
(alts=E5 unng=E5 'UNDERFITTING'), men samtidig   trekke minst mulig av =
ST=D8YEN i dataene inn i modellen (alts=E5 unng=E5 'OVERFITTING'). Man =
m=E5 med andre ord estimere OPTIMALT ANTALL MODELL-PARAMETRE fra =
dataene, og dessuten estimere den FREMTIDIG PREDIKSJONSFEIL: Hvor godt =
kan den valge modellen forventes =E5 fungere p=E5 nye, ukjente =
observasjoner i fremtiden? Dette er generelle vitenskapsteoretiske =
problemer. Men det  syndes tilsynelatende spesielt ofte ved bruk av  =
h=F8yparametriske teknikker som neuralte nett og genetiske algoritmer, =
og  i mer gammelmodige seleksjons-metoder som stegvis multippel line=E6r =
regresjon.

Estimeringen av optimal modell-kompleksitet og av fremtidig =
prediksjonsfeil kan gj=F8res p=E5 mange ulike m=E5ter. Foredraget vil =
sammenligne tre hoved-teknikker: 1) bruken av klassisk  statistisk =
estimeringsteori (frihetsgrader osv), 2) splitting av de tilgjengelige =
data i trenings-sett og mer eller mindre uavhengige test set, og 3) =
bruken av de tilgjengelige data b=E5de som trenings-sett og testset, ved =
hjelp av full kryssvalidering. En ny  utvidelse av =
kryss-valideringsmetoden for =E5 sikre uavhengig estimering av =
prediksjonsfeil (full kryss-verifisering) vil bli presentert. Studiet er =
basert p=E5 multivariabel PLSR kalibering for NIR spektroskopisk =
hurtigbestemmelse av protein-innhold i hele mais-planter. Resultatene =
viser at full kryss-validering er spesielt verdifull n=E5r mengden =
tilgjengelige data er begrenset  ( og n=E5r er den ikke det?)

........................................................................=
..................

Kunne du s=F8rge for at prof. Emil Spj=F8tvoll, prof. Bo Lindqvist og de =
andre statistikerne ved NTNU ogs=E5 f=E5r invitasjonen?


Harald