Per cada dia
endarrerit d'entrega hi ha
una reducció d'un 25% de la nota.
En aquest cas,
és
responsabilitat de l'estudiant contactar i quedar amb el professor per fer l'entrega en
persona.
Els
problemes són una tasca
individual. Es
considerarà correcte utilitzar idees
d'altres companys sempre que a) expliqueu els problemes que heu tingut
per solucionar la tasca individualment, b) feu constar l'origen de la
idea i c) el desenvolupament i redacció final de la tasca
sigui
individual.
Sabíeu
que weka
és el nom
d'un ocell de Nova Zelanda? El
Xavi Rius, tant investigar sobre
Weka ha trobat
inclús el
seu
só.
La
veritat és que n'hi
han frikis de l'aprenentatge automàtic,
mireu, un
fragment d'un rap sobre "machine learning":
What kind of thing do you want it to learn to do? Its action is a function: given input, what to map it to. The function that it learns is called "hypothesis"; the function that you call is hyped as, "Learn this!" How do you represent your hypo-thesis? Like this: Decision tree, function tree, neural network. Pick a good representation that is expressive enough to work.
Introducció
a l'aprenentatge automàtic. Marc general de
referència: entorn, component d'aprenentatge, base de
coneixement, component d'actuació. Terminologia
bàsica: conceptes, instàncies, atributs, classe.
Aprenentatge de conjuncions lògiques. Aprenentatge com a
cerca en espai d'estats. Algorismes exahustius bàsics:
general a específic, específic a general. Biaix
de representació i de cerca i les limitacions del
procés d'aprenentatge. Ordre parcial dels conceptes.
Algorismes incrementals. Espai de Versions i l'algorisme
d'Eliminació de Candidats.
Referències
Marc de
referència
P. Langley.
Elements of Machine
Learning, pàgs. 5-20.
Aprenentatge
de conjuncions lògiques
P. Langley.
Elements of Machine
Learning, capítol 2. Hi ha més material del que
farem a classe i alguns
algorismes són una mica diferents.
Espai
de Versions i l'algorisme d'Eliminació de Candidats
Tot i que ja és un text una mica antic, conté un
recull de problemes reals on es pot aplicar l'aprenentatge
automàtic. Actualment hi han d'altres àrees on
s'ha aplicat amb éxit i que no surten aqui o es
comenten breument, però l'article ja dóna una
bona idea del potencial dels mètodes d'aprenentatge. Alguns
aspectes com els paradigmes de l'aprenentatge que proposa potser
també estan una mica desfasats, però moltes
altres qüestions como les fases del procés d'una
aplicació real encara són vigents.
Material
de
Laboratori Aprenentatge
de conjuncions
Codi font: conjulearn.tgz.
Cal descomprimir-lo amb "tar xvzf conjulearn.tgz" i executar "make"
per a compilar-lo.
Conjunts de dades: ds.tgz.
Per executar-lo des de la línia de comandes cal fer:
conjulearn [opcions]
fitxer_dades
on les opcions poden ser:
-v 2 per a mostrar una
traça del procés. -p
per a activar la poda.
i
fitxer_dades és el nom d'un dels fitxers que heu descarregat
sense extensió.
Espai de Versions
Cal descarregar aquesta versió de l'eina Weka: weka.jar. NOTA:
Aquesta
versió de Weka incorpora el codi per a l'Espai de Versions
desenvolupat i cedit amablement per Raymond
Mooney, que
no trobareu a les versions de Weka que hi ha a Internet.
Per executar-lo des de la línia de comandes cal fer:
Aprenentatge
de conjuncions. Algorismes heurístics, avantatges i
limitacions.
Avaluació de classificadors. Precisió/error de la
mostra i real. Hold-out i cross-validation. Matriu de
confusió. Sobreajust (overfitting).
Referències Aprenentatge
de conjuncions lògiques (algorismes heurístics)
P. Langley.
Elements of Machine
Learning, capítol 2. Hi ha més material del que
farem a classe i alguns
algorismes són una mica diferents.
Avaluació de
classificadors
J.
Hernández-Orallo i
altres. Introducción a la minería de datos,
pàgs. 461-465.
I. H. Witten, E.
Frank. Data
mining. Practical machine learning tools and techniques with java
implementations. pàgs. 119-128.
Accuracy
estimation, part del
capítol 3 de la tesi de Ron
Kohavi
sobre mètodes d'estimació de la
precisió de classificadors.
Setmana
3 (26 setembre 2005)
Aprenentatge
de conceptes basats en llindars (threshold concepts).
Introducció al perceptró i els discriminants
lineals. Clustering: algorisme leader.
Aprenentatge de conceptes competitius. Aprenentatge de prototips.
Aprenentatge de conceptes probabilístics.
Estimació de paràmetres MLE (Maximum Likelihood
Estimation). Estimació MAP (Maximum A Posteriori) i la seva
aplicació a l'algorisme Naive Bayes.
Referències Aprenentatge
de conceptes basats en llindars (threshold concepts)
P. Langley.
Elements of Machine
Learning, capítol 3. Hi ha més material del que
farem a classe.
Aprenentatge
de conceptes competitius
P. Langley.
Elements of Machine
Learning, capítol 4. Hi ha més material del que
farem a classe.
Perceptrons
T. Mitchell, Machine Learning,
pàgs 86-89.
Discriminants lineals
J. Hernández i altres,
Introducción
a la minería de datos,
pàgs 203-209. Hi ha un desenvolupament teòric
més
profund que la introducció que hem fet a classe.
Referències
complementàries
Tot i que els algorismes del Perceptró i leader
són molt simples, en alguns casos poden resultat d'utilitat,
especialmente integrats de forma adient en sistems més
complexos o amb algunes modificacions. Aquí teniu algunes
referències amb exemples de la seva utilització:
(una curiositat, la recerca en xarxes neuronals va experimentar un
retrocés durant molts anys degut a que es pensava que eren
molt
limitades per fets com que els perceptrons no podien aprendre
conceptes com el XOR. Aquest
blog t'explica perqué
com a alumne pots sentir que et
presten tan poca atenció com a una xarxa neuronal als 70).
R. Kohavi, B. Becker, D.
Sommerfield (1997). Improving
simple bayes. Ninth European
Conference on Machine Learning, ECML97.
Estudi
de mètodes per tractar valors no coneguts i comptadors a
cero en
els classificadors Naive Bayes.
Setmana
4
(3 octubre 2005)
Aprenentatge
de prototips per clustering:
k-means.
Aprenentatge
de conceptes disjuntius. Aprenentatge de regles DNF (Disjunctive Normal
Form)
amb algorismes de Separate-and-Conquer (a.k.a. covering algorithms).
Aprenentatge de disjuncions
competitives: nearest neighbor (a.k.a. instance based learning).
Referències k-Means
I.
H. Witten, E.
Frank. Data
mining. Practical machine learning tools and techniques with java
implementations. pàgs. 210-212.
J. Hernández i altres,
Introducción
a la minería de datos,
pàgs 432-436.
Aprenentatge
de conceptes disjuntius
P. Langley.
Elements of Machine
Learning, capítol 5.
Hi ha més material del que
farem a classe.
Aprenentatge
de regles DNF amb
Separate-and-Conquer / Covering
T. Mitchell, Machine Learning,
pàgs 274-282.
I. H. Witten, E.
Frank. Data
mining. Practical machine learning tools and techniques with java
implementations. pàgs. 97-104.
Una breu
introducció a l'aplicació de representacions
basades en
prototips utilitzant representacions més expresives que les
de
vectors <atribut, valor> i per a realitzar d'altres
tasques a
més de la classificació. Això es
coneix com a CBR
(Case Based Learning) i les aproximacions NN/IBL es poden considerar
com a un cas particular assuming una certa simplicitat del problema i
les dades.
Aprenentatge
de conceptes
probabilístics per clustering: algorisme EM (Expectation
Maximization).
Aprenentatge de conceptes jeràrquics. Arbres de
decisió.
Solucions al problema de l'overfitting: pre i post-poda.
Referències Algorisme
EM
(Expectation Maximization)
T. Mitchell, Machine Learning,
pàgs.
191-196. L'exemple és el mateix fet a classe,
però la
formulació general de l'algorisme EM té una
notació una mica diferent.
Aprenentatge
de conceptes jeràrquics per clustering: jerarquies
probabilístiques (Cobweb). Regressió amb nearest
neighbor. Arbres de regressió i de models (model trees).
Selecció d'atributs: filters i wrappers, cerca
seqüencial (forward selection, backward elimination).
Ensembles: bagging i boosting.
Referències
Aprenentatge
jerarquies
probabilístiques
I. H. Witten, E.
Frank. Data
mining. Practical machine learning tools and techniques with java
implementations. pàgs. 212-218.
Regression/Model
trees
I. H. Witten, E.
Frank. Data
mining. Practical machine learning tools and techniques with java
implementations. pàgs. 201-208.
Selecció
d'atributs
G. H. John, R.
Kohavi, K. Pfleger (1994). Irrelevant
Features and the Subset Selection Problem.
Eleventh International
Conference on Machine Learning, ICML94, 121-129. Només la
descripció del problema i la diferència entre
filters i
wrappers.
Breu
repàs d'altres temes
d'aprenentatge automàtic que no hem fet a l'assignatura:
discretització, algorismes genètics, xarxes
bayesianes,
regles d'associació, aprenentatge relacional (ILP).
Introducció a la mineria de dades en el context de problemes
de
negoci: Business Intelligence, mineria de dades com a
procés, la
determinació d'objectius, preparació,
transformació i neteja de les dades.
Referències
Mineria
de dades en
problemes de negoci
Transparències
de la primera part: Business
Intelligence, el procés de
mineria de dades, determinació d'objectius,
preprocés de
dades.
Introducció
a la mineria de dades en el context de problemes de negoci:
construcció de models, mètodes alternatius
d'avaluació (gràfiques de ganància,
lift i benefici), aplicació del model, exemples.
Referències
Mineria
de dades en
problemes de negoci
Transparències
de la segona part: la construcció
de
models, avaluació amb gràfiques de
ganància, lift i benefici. Aplicació
(deployment). Exemples
de campanya de màrqueting i de detecció de spam.