Tuesday, 7 February 2017

Déplacement Moyenne Process Lecture Notes

Conférence 7LimitationsofControlChartsPrint - ISE 4404. C'est la fin de l'aperçu. Inscrivez-vous pour accéder au reste du document. Aperçu du texte non formaté: ISE 4404 Contrôle de la qualité statistique Notes de cours 7 Instructeur: Ran Jin Email: jran5vt. edu 1 Quelles sont les limites des tableaux de contrôle Xbar et RS Réfléchissez aux hypothèses 2 Chapitre 9 - CUSUM ampli EWMA Diagrammes de contrôle Pour accélérer la détection d'un Petit changement moyen dans le processus. Le diagramme de Shewhart prend beaucoup de temps pour détecter un petit décalage moyen (shiftlt1.5) n'utilise que les informations concernant le processus contenu dans le dernier point tracé et ignore toute information donnée par toute la séquence de points n'est pas appropriée pour l'échantillon avec une seule observation Le diagramme de Shewhart avec d'autres règles de sensibilisation supplémentaires peut augmenter la sensibilité de détection mais réduire la simplicité et la facilité d'interprétation du diagramme de contrôle de Shewhart et augmenter l'erreur de type I (parfois de façon spectaculaire) Avec données de processus autocorrélées 4 Chapitre 11 Contrôle de qualité multivarié Suivi du processus Tableau de contrôle du chi-carré moyen T2 de l'hôtelier taille de l'échantillon ngt1 Taille de l'échantillon n1 Interprétation des signaux non contrôlés Processus de surveillance Variabilité test covariance matrice test variance généralisée 5 Plus Avancé Thèmes de la conception de la carte de contrôle Graphique de contrôle ajusté au risque Surveillance de profil Carte de contrôle basée sur l'image Carte de contrôle basée sur un cluster 6 Chapitre 9 - CUSUM amp EWMA Diagrammes de contrôle Accélérer la détection d'un petit changement moyen dans le processus. Le diagramme de Shewhart prend beaucoup de temps pour détecter un petit décalage moyen (shiftlt1.5) n'utilise que les informations concernant le processus contenu dans le dernier point tracé et ignore toute information donnée par toute la séquence de points n'est pas appropriée pour l'échantillon avec une seule observation Le diagramme de Shewhart avec d'autres règles de sensibilisation supplémentaires peut augmenter la sensibilité de détection mais réduire la simplicité et la facilité d'interprétation du diagramme de contrôle de Shewhart et augmenter l'erreur de type I (parfois de façon spectaculaire) 7 Considérons les données suivantes. Ce processus a une augmentation moyenne depuis l'échantillon 21, le voyez-vous 8 6 Que faire si Ci i (X j 1 j 10) 6 6 9 Le petit changement moyen X UCL LCL t 10 Qu'est-ce que CUSUM? Page (1954). Graphique CUSUM: incorpore directement toutes les informations dans la séquence des valeurs d'échantillonnage en traçant les sommes cumulatives (CUSUM) des écarts des valeurs d'échantillon d'une valeur cible i Ci (x j 0) j1 x j. La moyenne du jème échantillon 0: la cible pour la moyenne de processus Ci: la somme cumulée jusqu'à et y compris le ième échantillon n1: cusum pourrait être construite pour des observations individuelles 11 Interprétation de la carte CUSUM i 1 Ci (xj 0) (xj Ci est une tendance à la dérive vers le bas lt0, Ci est une tendance à la dérive vers le bas Remarque: une tendance de Ci est une indication Du changement moyen du processus. 12 6 Utilisation de CUSUM Ci i (X j 1 j 10) 6 6 13 Comment construire un diagramme de contrôle CUSUM Surveiller la moyenne d'un processus. Tabulaire (algorithmique) cusum (façon préférable) Forme V-masque de cusum Cusum peut être construit à la fois pour les observations individuelles et pour les moyennes des sous-groupes rationnels. Pour l'observation individuelle: ixixi Ci (xj 0) Ci 1 (xi 0) j1 14 Construire un CUSUM Tableau de contrôle Tabulaire CUSUM Ci max0, xi (0 K) Ci1 Ci max0, (0 K) xi Ci1 C0 C0 0 Statistique C C. Un côté supérieur cusum CC: accumule des écarts de o qui sont plus grands que K, avec les deux quantités réinitialiser à zéro en devenant négatif K: valeur de référence (allocation ou valeur de mou) Souvent choisi environ à mi-chemin entre la cible o et le hors-contrôle Valeur de la moyenne 1 que nous cherchons à détecter rapidement 1 0 1 0 1 0 K 2 2 Règles de décision: Si C ou C dépasse l'intervalle de décision H (Un choix commun H5), le processus est considéré comme hors de contrôle 15 6 6 6 9 1 0 0,5 H55 2 2 Ci max0, xi (0 K) Ci1 K Ci max0, (0 K) xi Ci1 C0 C0 0 pour vérifier si Ci gt H ou Ci gt H 16 Procédures de construction de CUSUM Select K et H Construire un côté cusum supérieur et inférieur et représenté dans les deux colonnes distinctes du tableau Calculer xi - (0K) et 0-K - xi Calculer les écarts cumulatifs C et C Compter le nombre de périodes consécutives que le cusum C ou C - ont été non nulles, ce qui est indiqué par N et N respectivement 17 Interprétation de CUSUM Recherchez le point de données iout auquel C ou C - dépasse l'intervalle de décision H Si les données non contrôlées correspondent à une cause assignable, Pour déterminer l'emplacement des dernières données de contrôle iiniout - Nout ou iiniout - N-out où N out et N-out correspondent à N et N - au point de données iout Estimation de la nouvelle moyenne de processus Ci 0 KN out 0 K Ci N Si C et C - ne sont pas indépendants 18 Conception de CUSUM Basé sur ARL La valeur de référence de K Et l'intervalle de décision H ont un effet sur ARL0 et ARL1 k0.5 (Kk): pour minimiser la valeur ARL1 pour ARL0 fixe choisissez h (Hh): pour obtenir la performance ARL0 en-contrôle désirée Tables 9-3 amp 9-4 6 ARL0 ARL1 Diagramme de Shewhart ARL143.96 6 19 ARL de la carte CUSUM Approximation de Siegmunds pour ARL un côté ARL ou ARL - pour C ou C ARL ou e 2 b 2b 1 ARL 2 2 1 0 bh 1.166 k (pour ARL) k Pour ARL) 0: ARL0 0: ARL1 total ARL 1 1 1 ARL ARL ARL Si 0, ARLb2 20 Standardisé CUSUM Avantage d'un cusum standardisé: ne dépend pas. Ainsi, beaucoup de diagrammes de cusum peuvent maintenant avoir les mêmes valeurs de k et h Leads naturellement à un cusum pour la variabilité yi xi 0 Ci max0, yi k Ci 1 Ci max0, k yi Ci 1 C0 C0 0 21 Amélioration de CUSUM Exemple: 0100, K3, H12, 50 Valeur de départ C 0 C 0 H 2 6 1105 Données de contrôle 8 C0 C0 0 Réponse initiale rapide (FIR): set Si un décalage s'est produit au début, il peut détecter le décalage plus rapidement pour diminuer ARL1 Si in Contrôle au début, cusum va rapidement tomber à zéro, peu d'effet sur la performance 8 22 Plus de discussion sur CUSUM Sous-groupe rationnel: le cusum souvent mieux travailler avec n1 si ngt1, remplacer xi par x i. Remplacer par xn Cusum unilatéral dans chaque direction peut être conçu différemment CUSUM tableau n'est pas aussi efficace que le diagramme de Shewhart dans la détection de grands changements combinés cusum-Shewhart procédure (Shewhart limite l'utilisation 3.5) peut améliorer la capacité de détecter des changements plus importants et a seulement Légèrement diminué ARL0 6 23 CUSUM pour le suivi de la variabilité du processus Créer une nouvelle quantité normalisée (Hawkins, 1981, 1993), qui est sensible aux variations de variance. La distribution en commande de i est approximativement N (0,1) yi 0.822 ii N (0,1) 0.349 Si max0, ik Si1 yi xi 0 Si max0, ki Si1 La sélection de h et k et l'interprétation de cusum sont similaires à La moyenne mobile pondérée exponentiellement (EWMA) Pour oublier de façon exponentielle les données passées, nous voulons attacher plus de poids aux données les plus récentes. Il s'agit d'une moyenne pondérée: une série géométrique de poids Zi X i (1) Zi 1 Z0 0 Xi 1 Zi (1) j X ij (1) i Z0 j 0 0lt1, Z00 25 Comment construire un graphique EWMA Supposons que xt (t1,2) sont des variables aléatoires indépendantes, avec E (xt) 0 , Var (xt) 2 Var (Zi) Comme i devient grand: 2 Var (Zi) n 2 Remarque: pour 1, nous avons Shewhart Chart. En général, UCL 0 L UCL 0 L (2) n LCL 0 L (2) n CL0 LCL 0 L) n (2 Note: Différent du manuel, nous utilisons ici les moyennes d'échantillonnage (ngt1) plutôt que les moyennes d'échantillonnage Que les observations individuelles (n1) 26 6 8 8 8 n1 Z i X i (1) Z i 1 Z 0 0 X 1 (1) 22t i Zt UCL 0 L (2) 1 (1) (2) UCL 0 L 2 2 1 2 1 2 1 2 1 2 1 2 3 2 1 2 1 2 1 2 1 2 1 2 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 1 0.050.25, en particulier, 0.05, 0.10, 0.20) Généralement L3, mais pour les petits 0.1, L2.6 2.8 6 6 ARL0 ARL1 Diagramme Shewhart ARL143.96 28 Performances du tableau de contrôle EWMA Par rapport au graphique Shewhart et au graphique CUSUM, le graphique EWMA est Efficace sur la détection de petits décalages moyens comme CUSUM, moins efficace sur la détection de décalage plus grande que le diagramme de Shewhart, mais généralement supérieur au diagramme de CUSUM (particulièrement si gt0.1) EWMA est très insensible à l'hypothèse de normalité. Il s'agit donc d'un tableau de contrôle idéal pour les observations individuelles. Recommandation: Pour combiner le diagramme de Shewhart avec l'EWMA et utiliser des limites de contrôle plus larges (L3.25 ou 3.5) pour le diagramme de Shewhart 29 Exemple Un diagramme de contrôle EWMA utilise 0,4. Quelle est la largeur des limites sur le diagramme de commande x-bar (en unités sigma), exprimé en multiple de la largeur des limites EWMA en régime permanent (en unités sigma) 30 Cartes de contrôle de moyenne mobile Différent de EWMA, utilisez Une moyenne mobile non pondérée. Cette fenêtre de taille, w, intègre une partie de la mémoire de l'information de données passée en supprimant les données les plus anciennes et en ajoutant les données les plus récentes 31 Construction des tableaux de contrôle de la moyenne mobile La moyenne mobile peut être écrite récursivement en tant que MM (i i-1 i X) w w ww w taille de la fenêtre, n taille de l'échantillon pour elle 1 Var (M) 2 Var (iw it-w1 ji-w1 UCL 0 3 nw LCL 0 - 3 nw XX 2) nw ji X Au début, si iltw 0 3 ni Remarques: La taille de fenêtre de w et l'ampleur du décalage d'intérêt sont inversement liées. 32 6 8 8 Exemple 8 8 UCL 0 3 n1 0 3 w LCL 0 - 3 wi 8 6 6 9 13 33 Exemple: Détection de décalage par déplacement du graphique moyen Supposons le déplacement moyen du processus de 0 0 n pour le diagramme de Shewhart (cette valeur n'est pas Changement de l'échantillon à l'échantillon): 0,0227 Pr (détecter) Pr (X gt 3 0 0 nn pour le graphique de la moyenne mobile: cette valeur varie d'échantillon à échantillon puisque) Pr (détecter) Pr (M gt UCL i M 0 ni 1) (W-1) pour le 1er échantillon après le changement E (M) w 2e échantillon après le changement ww échantillon après le changement w Voir le document complet Cliquez ici pour éditer le document details Partager ce lien avec un ami: Documents les plus populaires pour ISE 4404 Lecture 3InferencesAboutQuality Virginia Tech ISE 4404 - Printemps 2015 ISE 4404 Contrôle de la qualité statistique Notes de cours 3 Instructeur: Ran Jin Courriel: jran5 Travail à domicile 2 Virginia Tech ISE 4404 - Printemps 2015 ISE 4404 Printemps 2015 SOIRÉE 2 Dû à 2132015 avant la classe 1. (1pt) Virginia Tech ISE 4404 - Printemps 2015 ISE 4404 Printemps 2015 SOIRÉE DE MAISON 4 Délivrance sur 3272015 avant la classe 1. (1 pt) Un processus est des devoirs 3 Virginia Tech ISE 4404 - Printemps 2015 ISE 4404 Printemps 2015 1 pt) Un processus est Examen 1 Solution Virginia Tech ISE 4404 - Printemps 2015 ISE 4404 Contrôle de la qualité statistique examen I (TIME: 90 minutes) NOTES: 1. Deux pages dou examen 1 Solution devoirs 6 Virginia Tech ISE 4404 - Printemps 2015 ISE4404 Spring 2015 HOMEWORK 6 Dû à 4272015 avant la classe 1. (1 pt) Appliquer le DOE tSTAT 497 NOTES DE LA CONFÉRENCE 2 1. L'AUTOCOVARIANCE ET LES FONCTIONS D'AUTOCORRELATION Pour un processus stationnaire, l'autocovariance entre Y t et Y. Présentation sur le thème: STAT 497 CONFÉRENCE NOTES 2 1. L'AUTOCOVARIANCE ET LES FONCTIONS D'AUTOCORRELATION Pour un processus stationnaire, l'autocovariance entre Y t et Y. Transcription de présentation: 2 L'AUTOCOVARIANCE ET LES FONCTIONS D'AUTOCORRELATION Pour un processus stationnaire, l'autocovariance entre Y t et Y tk est et l'autocorrélation (K condition k) et k sont positifs semi-définis pour tout ensemble de points de temps t 1, t 2,, t n et tous nombres réels 1, 2 ,, n. Les propriétés de l'autocorrélation et de la fonction d'auto - 3 4 LA FONCTION D'AUTOCORRELATION PARTIELLE (PACF) PACF est la corrélation entre Y t et Y t-k après que leur dépendance linéaire mutuelle sur les variables intervenantes Y t-1, Y t-2,, Y t-k1 a été supprimée. La corrélation conditionnelle est généralement appelée autocorrélation partielle dans les séries temporelles. 4 5 CALCUL DE PACF 1. APPROCHE DE REGRESSION: Considérons un modèle à partir d'un processus stationnaire moyen zéro où ki désigne les coefficients de Y t ki etk est le terme d'erreur moyenne nul qui n'est pas corrélée avec Y t ki, i0,1,, k . Processus de bruit blanc (WN) Un processus est appelé processus de bruit blanc (WN), s'il s'agit d'une séquence de variables aléatoires non corrélées à partir d'une distribution fixe avec moyenne constante, variance constante et Cov (Y T, Y tk) 0 pour tout k0. 11 12 PROCESSUS DE BRUIT BLANC (WN) C'est un processus stationnaire avec fonction d'autocovariance 12 Phénomène de base: ACFPACF 0, k 0. 13 PROCESSUS BRUIT BRUIT (WN) Bruit blanc (en analyse spectrale): lumière blanche produite dans laquelle toutes les fréquences Dire des couleurs) sont présents en quantité égale. Processus sans mémoire Bloc de construction à partir duquel nous pouvons construire des modèles plus complexes Il joue le rôle d'une base orthogonale dans l'analyse générale des vecteurs et des fonctions. La loi de Kolmogorovs de grand nombre (LLN) indique que si X i iid (, 2) pour i 1. n, alors nous avons la limite suivante pour la moyenne d'ensemble Dans la série temporelle, nous avons la moyenne des séries chronologiques, pas la moyenne de l'ensemble . Par conséquent, la moyenne est calculée en faisant la moyenne dans le temps. La moyenne des séries chronologiques converge-t-elle à la même limite que la moyenne de l'ensemble La réponse est oui, si Y t est stationnaire et ergodique. 15 16 ERGODICITÉ Un processus stationnaire de covariance est dit ergodique pour la moyenne, si la moyenne des séries chronologiques converge vers la moyenne de la population. De même, si la moyenne de l'échantillon fournit une estimation cohérente pour le deuxième moment, alors le processus est dit ergodique pour le deuxième moment. 16 17 ERGODICITÉ Une condition suffisante pour qu'un processus stationnaire de covariance soit ergodique pour la moyenne est que. De plus, si le processus est gaussien, alors les autocovariances absolument sommables garantissent également que le processus est ergodique pour tous les moments. 17 19 FONCTION AUTOCORRELATION DE L'ECHANTILLON Un graphe par rapport à k un corrélogramme de l'échantillon Pour les grandes tailles d'échantillon, on distribue normalement avec la moyenne k et la variance est approximée par approximation de Bartletts pour les processus dans lesquels k 0 pour km. 19 m. 19 20 LA FONCTION AUTOCORRELATION DE L'ECHANTILLON Dans la pratique, les s sont inconnues et remplacées par leurs estimations d'échantillons. Par conséquent, nous avons l'erreur standard de grand-lag suivante de. 20 21 LA FONCTION AUTOCORRELATION DE L'ECHANTILLON Pour un processus WN, nous avons l'intervalle de confiance 95 pour k. Par conséquent, pour tester le processus est WN ou non, dessinez un 2n 12 lignes sur le corrélogramme de l'échantillon. Si tous sont à l'intérieur des limites, le processus pourrait être WN (nous devons également vérifier l'exemple PACF). 21 Pour un processus WN, il doit être proche de zéro. 22 FONCTION D'AUTOCORRELATION PARTIELLE D'ECHANTILLON Pour un processus WN, on peut utiliser 2n 12 comme limite critique sur kk pour tester l'hypothèse d'un processus WN. 22 23 OPÉRATEURS D'ARRIÈRE-GARDE (OU DE LAG) L'opérateur de changement de rapport, B est défini comme, par exemple, Processus de choc aléatoire: 23 24 MOUVEMENT DE LA REPRÉSENTATION MOYENNE D'UNE SÉRIE DE TEMPS Également connu sous le nom de forme de choc aléatoire ou représentation de Wold (1938). Soit une série chronologique. Pour un processus stationnaire, on peut écrire sous la forme d'une combinaison linéaire de séquences de non corrélées (WN) r. v.s. Un processus linéaire général: 24 où 0 I, est un processus WN moyenne 0 et 27 MOUVEMENT DE REPRÉSENTATION MOYENNE D'UNE SÉRIE TEMPORELLE Parce qu'ils impliquent des sommes infinies, être statinaire. Par conséquent, est la condition requise pour que le processus soit stationnaire. Il s'agit d'un processus non déterministe: un processus ne contient aucune composante déterministe (aucun aléa dans les états futurs du système) qui peut être prévisible exactement à partir de son propre passé. Pour une séquence donnée d'autocovariances k, k0, 1, 2, la fonction génératrice d'autocovariance est définie comme étant où la variance d'un processus donné 0 est le coefficient de B 0 et l'autocovariance de lag k, k est la Coefficient de B k et B k. 28 22 11 31 EXEMPLE a) Ecrire l'équation ci-dessus sous forme de choc aléatoire. B) Trouver la fonction génératrice d'autocovariance. 31 32 REPRÉSENTATION AUTOREGRESSIVE D'UNE SÉRIE TEMPORELLE Cette représentation est également appelée INVERTED FORM. Réglez la valeur de Y t au temps t sur son propre passé plus un choc aléatoire. 32 33 REPRÉSENTATION AUTOREGRESSIVE D'UNE SÉRIE TIME Il s'agit d'un processus inversible (il est important pour la prévision). Tous les processus stationnaires ne sont pas inversibles (Box et Jenkins, 1978). Invertibilité fournit l'unicité de la fonction d'autocorrélation. Cela signifie que différents modèles de séries chronologiques peuvent être ré-exprimés l'un par l'autre. Pour un processus linéaire, pour être inversible, les racines de (B) 0 en fonction de B doivent se situer en dehors du cercle unitaire. Si est une racine de (B), alors 1. (nombre réel) est la valeur absolue de. (Nombre complexe) est 34 1. (nombre réel) est la valeur absolue de. (Numéro complexe) est 34 35 RÈGLE D'INVERTIBILITÉ À L'AIDE DE LA FORME DE DÉCHARGE ALEATOIRE Elle peut être immobile si le processus peut être réécrit dans un RSF, c'est-à-dire 35 36 RÈGLE DE STATIONARITÉ À L'AIDE DE LA FORME INVERSÉE Pour un procédé linéaire, De (B) 0 en fonction de B doit se trouver en dehors du cercle unitaire. Si est une racine de (B), alors 1. 36 1. 36 37 FORME DE CHOC RANDOM ET FORME INVERSE Les représentations AR et MA ne sont pas la forme du modèle. Parce qu'ils contiennent un nombre infini de paramètres impossibles à estimer à partir d'un nombre fini d'observations. Dans la forme inversée d'un processus, si seul le nombre fini de poids est non nul, c'est-à-dire que le processus est appelé processus AR (p). 38 39 MODÈLES DE SÉRIE TIME Dans la forme de choc aléatoire d'un processus, si seul le nombre fini de poids est non nul, c'est-à-dire que le processus est appelé processus MA (q). 39 41 MODÈLES TIME SERIES Le nombre de paramètres dans un modèle peut être important. Pour un nombre fixe d'observations, plus il ya de paramètres dans un modèle, moins l'estimation des paramètres est efficace. Choisissez un modèle plus simple pour décrire le phénomène. 41 Download ppt STAT 497 NOTES DE CONFÉRENCE 2 1. L'AUTOCOVARIANCE ET LES FONCTIONS D'AUTOCORRELATION Pour un processus stationnaire, l'autocovariance entre Y t et Y. CSC321 Hiver 2014 - Notes de cours Voici les commentaires de Tijmens sur les vidéos de conférences de Geoffs. Janvier 9 Conférence 1a: Pourquoi avons-nous besoin d'apprentissage automatique et Lecture 1b: Que sont les réseaux de neurones Ces vidéos introduire la motivation et la philosophie générale de ML. Ne vous inquiétez pas si vous ne comprenez pas tous les détails techniques de, par ex. L'histoire de la reconnaissance vocale. Essayez d'obtenir la vue d'ensemble de l'histoire. Un point important est que certaines choses qui nous semblent faciles, comme la vision, sont difficiles pour le logiciel, et vice versa (échecs). Conférence 1c: Quelques modèles simples de neurones Cette vidéo présente quelques types de neurones de base. Il montre la formalisation des concepts (connexion, activité, etc) en mathématiques. Lecture 1d: Un exemple simple d'apprentissage La partie la plus importante de cette vidéo est la visualisation. La visualisation des réseaux neuronaux est difficile mais importante. 14 janvier Conférence 1e: Trois types d'apprentissage Portez une attention particulière à l'apprentissage supervisé et à sa définition mathématique, car c'est ce qui se passait pour la première moitié du cours. Conférence 2a: Types d'architectures de réseaux neuronaux Prêtez une attention particulière aux réseaux d'alimentation, car c'est ce que bien faire pour la première moitié du cours. Conférence 2b: Perceptrons: la première génération de réseaux de neurones Gardez à l'esprit l'analogie avec les neurones et les synapses. Pensez à quelles parties sont apprises et qui arent, et demandez-vous pourquoi, même si vous ne trouvez pas une réponse. Essayez de comprendre pourquoi le biais peut être mis en œuvre comme une unité d'entrée spéciale. Synonymes: unité neuronale. Neurone met l'accent sur l'analogie avec les cerveaux réels. Unité souligne que c'est une composante d'un grand réseau. Met en évidence qu'il représente (implémente) un détecteur de caractéristiques qui regarde l'entrée et se met en marche si la fonction recherchée est présente dans l'entrée. Synonymes: a unités value a unités activation a units output. Notez qu'une entrée d'unité est autre chose. Valeur souligne que nous pouvons y penser comme une variable, ou une fonction de l'entrée. Activation souligne que l'unité peut répondre ou non, ou dans une mesure sa plus appropriée pour les unités logistiques, et il pourrait souligner l'analogie avec les cerveaux réels. Sortie souligne que son différent de l'entrée. Janvier 16 Conférence 2c: Une vue géométrique des perceptrons Si vous n'êtes pas trop expérimenté avec la géométrie et ses mathématiques, alors cela va défier votre imagination. Prends ton temps. Après avoir compris cette vidéo, les deux autres seront plus faciles que celui-ci. Il s'agit d'espaces de grande dimension. Quelques faits de base à propos de ceux-ci: Un point (a. k.a. emplacement) et une flèche de l'origine à ce point, sont souvent utilisés de façon interchangeable. Il peut être appelé un emplacement ou un vecteur. Un hyperplan est l'équivalent tridimensionnel d'un plan en 3-D. En 2-D, c'est une ligne. Les diapositives qui montrent une image de l'espace de poids utilisent un espace de poids 2-D, de sorte que son facile à dessiner. Les mêmes idées s'appliquent dans high-D. Le produit scalaire entre deux vecteurs est ce que vous obtenez lorsque vous les multipliez par éléments et ensuite additionnez ces produits. Son aussi connu comme produit intérieur. Le produit scalaire entre deux vecteurs qui ont un angle inférieur à 90 degrés entre eux est positif. Pour plus de 90 degrés son négatif. Si vous n'êtes pas sûr de l'histoire de cette vidéo après l'avoir regardé, regardez-le à nouveau. La compréhension est une condition préalable à la prochaine vidéo. Leçon 2d: Pourquoi le travail d'apprentissage Ici, à l'aide de l'interprétation géométrique, une preuve est présentée de la raison pour laquelle l'algorithme d'apprentissage perceptron fonctionne. Les détails ne sont pas tous énoncés. Après avoir regardé la vidéo, essayez de raconter l'histoire à quelqu'un d'autre (ou à un mur) avec vos propres mots, si possible avec plus de détails. C'est la meilleure façon d'étudier de toute façon. Conférence 2e: Ce que les perceptrons ne peuvent pas faire Cette histoire motive le besoin de réseaux plus puissants. Ces idées seront importantes dans les prochaines conférences, quand on travaillait à dépasser ces limites. Synonymes: cas d'entrée cas formation cas formation exemple point de formation et parfois même entrée (thats certainement mal si). Le cas d'entrée et l'entrée soulignent que ceci est donné au réseau neuronal, au lieu d'être demandé au réseau (comme la réponse à un cas de test). Entrée est ambiguë, car plus souvent, l'entrée est courte pour le neurone d'entrée. Cas de formation est le plus couramment utilisé et est assez générique. L'exemple de formation met l'accent sur l'analogie avec l'apprentissage humain: nous apprenons des exemples. Point de formation souligne que son un emplacement dans un espace de haute dimension. Janvier 21 Conférence 3a: Apprentissage des poids d'un neurone linéaire Cette vidéo présente beaucoup de nouvelles idées et constitue un pré-requis important pour comprendre les deux autres vidéos (et en fait le reste du cours). Cette vidéo introduit un type différent de neurone de sortie. Encore une fois, nous avons une preuve de convergence, mais c'est une preuve différente. Il ne nécessite pas l'existence d'un vecteur poids parfait. Erreur résiduelle signifie vraiment erreur ou résiduelle: c'est la quantité par laquelle nous avons obtenu la réponse fausse. Un concept très central est introduit sans être rendu très explicite: nous utilisons des dérivés pour l'apprentissage, c'est-à-dire pour améliorer les poids. Essayez de comprendre pourquoi ces concepts sont en effet très liés. L'apprentissage en ligne signifie que nous changeons de pondération après chaque exemple de formation que nous voyons, et nous faisons généralement un cycle à travers la collection d'exemples de formation disponibles. Lecture 3b: La surface d'erreur pour un neurone linéaire Beaucoup de géométrie à nouveau, tout comme dans la vidéo 2c sur les perceptrons. Ces types d'analyse sont le meilleur outil que nous ayons pour comprendre ce qu'est une règle d'apprentissage. Ce n'est pas facile. Dans l'image, nous utilisons deux poids et deux cas de formation. Ces chiffres n'ont pas dû être les mêmes, donc ce n'est pas comme un poids est lié à un cas de formation, et l'autre poids est relié à l'autre cas de formation. Leçon 3c: Apprentissage des poids d'un neurone de sortie logistique Celui-ci est plus facile que les deux autres: il a beaucoup moins de nouveaux concepts. Pensez à ce qui est différent du cas avec les neurones linéaires, et ce qui est le même. La fonction d'erreur est encore E 12 (y-t) 2 Remarquez comment après Geoff expliqué ce que la dérivée est pour une unité logistique, il considère le travail à faire. C'est parce que la règle d'apprentissage est toujours tout simplement un certain taux d'apprentissage multiplié par la dérivée. Synonymes: perte (fonction) erreur (fonction) objectif (fonction) (valeur). La perte met l'accent sur le fait de la minimiser, sans dire grand-chose sur la signification du nombre. Erreur souligne que c'est la mesure dans laquelle le réseau obtient des choses fausses. Fonction objective est très générique. C'est la seule où il n'est pas clair si elles étaient de minimiser ou de maximiser. Janvier 23 Lecture 3d: L'algorithme backpropagation Ici, nous commençons à utiliser des couches cachées. Pour les former, nous avons besoin de l'algorithme de backpropragation. Les couches cachées, et cet algorithme, sont très importants dans ce cours. S'il n'y a aucune confusion à ce sujet, il vaut la peine de le résoudre bientôt. L'histoire de l'entraînement par les perturbations sert surtout de motivation pour l'utilisation du backprop, et n'est pas aussi central que le reste de la vidéo. Ce calcul, tout comme la propagation vers l'avant, peut être vectorisé à travers plusieurs unités dans chaque couche, et de multiples cas de formation. Leçon 3e: Utilisation des dérivés calculés par backpropagation Ici, deux thèmes (optimisation et régularisation) sont introduits, à approfondir plus tard dans le cours. Janvier 28 Lecture 4a: apprendre à prédire le mot suivant Maintenant que nous avons la méthode de base pour créer des couches cachées (backprop), allaient voir ce qui peut être réalisé avec eux. Nous commençons à nous demander comment le réseau apprend à utiliser ses unités cachées, avec une application de jouet aux arbres généalogiques et une application réelle à la modélisation du langage. Ce matériel constitue la base de l'affectation 1. Cette vidéo présente des représentations distribuées. Ce n'est pas vraiment sur la prédiction des mots, mais sa construction jusqu'à cela. Il fait un excellent travail de regarder à l'intérieur du cerveau d'un réseau de neurones. C'est important, mais pas toujours facile à faire. Lecture 4b: Un bref détournement vers la science cognitive Cette vidéo fait partie du cours, c'est-à-dire qu'elle n'est pas facultative, malgré ce que dit Geoff au début de la vidéo. Cette vidéo donne une interprétation de haut niveau de ce qui se passe dans le réseau d'arbres généalogiques. Cette vidéo oppose deux types d'inférence: l'inférence consciente, basée sur le savoir relationnel. Inférence inconsciente, basée sur des représentations distribuées. Leçon 4c: Une autre dérivation: La fonction de sortie softmax Ce n'est pas vraiment une dérivation: c'est un ingrédient crucial des modèles de langage, et de nombreux autres réseaux de neurones. Nous avons vu des neurones binaires de sortie de seuil et des neurones de sortie logistiques. Cette vidéo présente un troisième type. Celui-ci n'a de sens que si nous avons plusieurs neurones de sortie. Le premier problème avec l'erreur au carré est un problème qui apparaît quand étaient combiner la fonction de perte d'erreur au carré avec les unités de sortie logistiques. La logistique a de petits gradients, si l'entrée est très positive ou très négative. Matière écrite: Le calcul des unités softmax Il s'agit plus précisément des unités softmax, y compris les dérivées et les dérivations détaillées. Leçon 4d: Modèles de langage probabiliste Neuro-probabiliste Il s'agit de la première de plusieurs applications de réseaux de neurones qui étudient bien en détail dans ce cours. Synonymes: mot incorporation mot caractéristique vecteur mot encodage. Tout cela décrit la collection savante de nombres qui est utilisé pour représenter un mot. L'incorporation souligne que son un emplacement dans un espace de grande dimension: son où les mots sont incorporés dans cet espace. Lorsque nous vérifions pour voir quels mots sont proches les uns des autres, pensaient à cet enrobage. Le vecteur de caractéristiques met en évidence que son vecteur est un vecteur au lieu d'un scalaire, et que son composante, c'est-à-dire composée de valeurs d'entités multiples. Encodage est très générique et doesnt accentuer quelque chose de spécifique. Janvier 30 Lecture 4e: Manières de traiter le grand nombre de sorties possibles Chemin 1: une architecture en série, basée sur l'essai des prochains mots, en utilisant des vecteurs caractéristiques (comme dans l'exemple de la famille). Cela signifie moins de paramètres, mais encore beaucoup de travail. Voie 2: utilisation d'un arbre binaire. Voie 3: Collobert Westons recherche de bons vecteurs pour les mots, sans essayer de prédire le mot suivant dans une phrase. Affichage des vecteurs de caractéristiques apprises. Jolie image Février 4 Lecture 5a: Pourquoi la reconnaissance d'objet est difficile Passaient à une application différente de réseaux de neurones: la vision par ordinateur, c'est-à-dire avoir un ordinateur vraiment comprendre ce qu'une image est montrant. Cette vidéo explique pourquoi il est difficile pour un ordinateur d'aller à partir d'une image (c'est-à-dire la couleur et l'intensité pour chaque pixel dans l'image) à une compréhension de ce que son une image de. Une partie de cette discussion porte sur des images d'objets bidimensionnels (écriture sur papier), mais la plupart concernent des photographies de scènes 3D réelles. Assurez-vous de bien comprendre la dernière diapositive: elle explique comment l'âge et le poids de la commutation sont comme un objet se déplaçant sur une partie différente de l'image (vers différents pixels). Ces deux peuvent sembler des situations très différentes, mais l'analogie est en fait assez bonne: theyre pas vraiment très différent. Comprendre cela est une condition préalable à la prochaine vidéo. Lecture 5b: Réaliser l'invariance invariante de point de vue signifie, littéralement, qu'elle ne varie pas: elle ne change pas à la suite d'un changement de point de vue. Cela signifie que si le neurone pour le détecteur de caractéristiques est assez actif (c'est-à-dire un neurone logistique et il a une valeur proche de 1) pour une image d'entrée, alors si nous donnons au réseau neuronal une image de cette même scène d'un peu différent Point de vue, ce même neurone sera encore assez actif. Son activité est invariante sous des changements de points de vue. Invariant est une question de degrés: theres très peu thats complètement invariant, ou qui n'a pas d'invariance du tout, mais certaines choses sont plus invariantes que d'autres. Les caractéristiques invariantes sont des choses comme theres un cercle rouge quelque part dans l'image, et le neurone pour ce détecteur de fonctionnalité devrait en quelque sorte apprendre à allumer quand il ya effectivement un cercle rouge dans l'entrée et désactiver si il n'y en a pas. Essayez de trouver des exemples de fonctionnalités qui sont en grande partie invariantes sous des changements de point de vue et des exemples de fonctionnalités qui ne possèdent pas cette propriété. Conférence 5c: Réseaux convolutifs pour la reconnaissance numérique Comme beaucoup d'histoires que nous racontons avec l'application de reconnaître des chiffres manuscrits, celui-ci, aussi, est applicable à une grande variété de tâches de vision. Sa juste que la reconnaissance manuscrite de chiffre est un exemple standard pour des réseaux de neurones. Les réseaux convolutifs sont encore très utilisés. La diapositive Backpropagation avec contraintes de poids peut être source de confusion. Voici quelques éclaircissements. (note that not every researcher uses the same definitions) Error Backpropagation (a. k.a. backpropagation or backprop) is an algorithm that cleverly uses the chain rule to calculate gradients for neural networks. It doesnt really care about weights constraints. What does care about weight constraints is the optimizer: the system that, bit by bit, changes the weights biases of the network to reduce the error, and that uses the gradient (obtained by backprop) to figure out in which direction to change the weights. The gradient for two weights will typically not be the same, even if theyre two weights that wed like to keep equal. The optimizer can keep the tied weights the same in at least two ways. One way is to use the sum of the gradients of the various instances of the tied weights as if it were the gradient for each of the instances. Thats what the video describes. Another way is to use the mean instead of the sum. Both methods have their advantages. The main point of this is that its not the gradients that change if we have convolution what changes is what we do with the gradients. Another interpretation is to say that there really arent two (or more) weights that were trying to keep equal, but that theres really only one parameter that shows up in two (or more) places in the network. Thats the more mathematical interpretation. It favours using the sum of gradients instead of the mean (you can try to figure out why, if youre feeling mathematical). This interpretation is also closer to what typically happens in the computer program that runs the convolutional neural net. Lecture 5d: Convolutional nets for object recognition This video is more a collection of interesting success stories than a thorough introduction to new concepts. Sit back and enjoy. Terminology: backpropagation is often used as the name for the combination of two systems: System 1: the error backpropagation system that computes gradients. System 2: the gradient descent system that uses those gradients to gradually improve the weights and biases of a neural network. Most researchers, including Geoffrey, usually mean this combination, when they say backpropagation. February 6 Lecture 6a: Overview of mini-batch gradient descent Now were going to discuss numerical optimization: how best to adjust the weights and biases, using the gradient information from the backprop algorithm. This video elaborates on the most standard neural net optimization algorithm (mini-batch gradient descent), which weve seen before. Were elaborating on some issues introduced in video 3e. Lecture 6b: A bag of tricks for mini-batch gradient descent Part 1 is about transforming the data to make learning easier. At 1:10, theres a comment about random weights and scaling. The it in that comment is the average size of the input to the unit. At 1:15, the good principle: what he means is INVERSELY proportional. At 4:38, Geoff says that the hyperbolic tangent is twice the logistic minus one. This is not true, but its almost true. As an exercise, find outs missing in that equation. At 5:08, Geoffrey suggests that with a hyperbolic tangent unit, its more difficult to sweep things under the rug than with a logistic unit. I dont understand his comment, so if you dont either, dont worry. This comment is not essential in this course: were never using hyperbolic tangents in this course. Part 2 is about changing the stochastic gradient descent algorithm in sophisticated ways. Well look into these four methods in more detail, later on in the course. Jargon: stochastic gradient descent is mini-batch or online gradient descent. The term emphasizes that its not full-batch gradient descent. stochastic means that it involves randomness. However, this algorithm typically does not involve randomness. However, it would be truly stochastic if we would randomly pick 100 training cases from the entire training set, every time we need the next mini-batch. We call traditional stochastic gradient descent stochastic because it is, in effect, very similar to that truly stochastic version. Jargon: a running average is a weighted average over the recent past, where the most recent past is weighted most heavily. February 11 Lecture 6c: The momentum method Now were going to take a more thorough look at some of the tricks suggested in video 6b. The biggest challenge in this video is to think of the error surface as a mountain landscape. If you can do that, and you understand the analogy well, this video will be easy. You may have to go back to video 3b, which introduces the error surface. Important concepts in this analogy: ravine, a low point on the surface, oscillations, reaching a low altitude, rolling ball, velocity. All of those have meaning on the mountain landscape side of the analogy, as well as on the neural network learning side of the analogy. The meaning of velocity in the neural network learning side of the analogy is the main idea of the momentum method. Vocabulary: the word momentum can be used with three different meanings, so its easy to get confused. It can mean the momentum method for neural network learning, i. e. the idea thats introduced in this video. This is the most appropriate meaning of the word. It can mean the viscosity constant (typically 0.9), sometimes called alpha, which is used to reduce the velocity. It can mean the velocity. This is not a common meaning of the word. Note that one may equivalently choose to include the learning rate in the calculation of the update from the velocity, instead of in the calculation of the velocity. Lecture 6d: Adaptive learning rates for each connection This is really for each parameter, i. e. biases as well as connection strengths. Vocabulary: a gain is a multiplier. This video introduces a basic idea (see the video title), with a simple implementation. In the next video, well see a more sophisticated implementation. You might get the impression from this video that the details of how best to use such methods are not universally agreed on. Thats true. Its research in progress. Lecture 6e: Rmsprop: Divide the gradient by a running average of its recent magnitude This is another method that treats every weight separately. rprop uses the method of video 6d, plus that it only looks at the sign of the gradient. Make sure to understand how momentum is like using a (weighted) average of past gradients. Synonyms: moving average, running average, decaying average. All of these describe the same method of getting a weighted average of past observations, where recent observations are weighted more heavily than older ones. That method is shown in video 6e at 5:04. (there, its a running average of the square of the gradient) moving average and running average are fairly generic. running average is the most commonly used phrase. decaying average emphasizes the method thats used to compute it: theres a decay factor in there, like the alpha in the momentum method. February 13 Lecture 7a: Modeling sequences: A brief overview This video talks about some advanced material that will make a lot more sense after you complete the course: it introduces some generative models for unsupervised learning (see video 1e), namely Linear Dynamical Systems and Hidden Markov Models. These are neural networks, but theyve very different in nature from the deterministic feedforward networks that weve been studying so far. For now, dont worry if those two models feel rather mysterious. However, Recurrent Neural Networks are the next topic of the course, so make sure that you understand them. Lecture 7b: Training RNNs with back propagation Most important prerequisites to perhaps review: videos 3d and 5c (about backprop with weight sharing). After watching the video, think about how such a system can be used to implement the brain of a robot as its producing a sentence of text, one letter at a time. What would be input what would be output what would be the training signal which units at which time slices would represent the input output February 25 Lecture 7c: A toy example of training an RNN Clarification at 3:33: there are two input units. Do you understand what each of those two is used for The hidden units, in this example, as in most neural networks, are logistic. Thats why its somewhat reasonable to talk about binary states: those are the extreme states. Lecture 7d: Why it is difficult to train an RNN This is all about backpropagation with logistic hidden units. If necessary, review video 3d and the example that we studied in class. Remember that Geoffrey explained in class how the backward pass is like an extra long linear network Thats the first slide of this video. Echo State Networks: At 6:36, oscillator describes the behavior of a hidden unit (i. e. the activity of the hidden unit oscillates), just like we often use the word feature to functionally describe a hidden unit. Echo State Networks: like when we were studying perceptrons, the crucial question here is whats learned and whats not learned. ESNs are like perceptrons with randomly created inputs. At 7:42: the idea is good initialization with subsequent learning (using backprops gradients and stochastic gradient descent with momentum as the optimizer). Lecture 7e: Long-term Short-term-memory This video is about a solution to the vanishing or exploding gradient problem. Make sure that you understand that problem first, because otherwise this video wont make much sense. The material in this video is quite advanced. In the diagram of the memory cell, theres a somewhat new type of connection: a multiplicative connection. Its shown as a triangle. It can be thought of as a connection of which the strength is not a learned parameter, but is instead determined by the rest of the neural network, and is therefore probably different for different training cases. This is the interpretation that Geoffrey uses when he explains backpropagation through time through such a memory cell. That triangle can, alternatively, be thought of as a multiplicative unit: it receives input from two different places, it multiplies those two numbers, and it sends the product somewhere else as its output. Which two of the three lines indicate input and which one indicates output is not shown in the diagram, but is explained. In Geoffreys explanation of row 4 of the video, the most active character means the character that the net, at this time, consider most likely to be the next character in the character string, based on what the pen is doing. February 27 Lecture 9a: Overview of ways to improve generalization In the discussion of overfitting, we assume that the bottleneck of our ability to do machine learning is the amount of data that we have not the amount of training time or computer power that we have. Lecture 9b: Limiting the size of the weights There is some math in this video. Its not complicated math. You should make sure to understand it. Lecture 9c: Using noise as a regularizer First slide This slide serves to show that noise is not a crazy idea. The penalty strength can be thought of as being sigma i squared, or twice that (to compensate for the 12 in the weight decay cost function), but that detail is not important here. Second slide (the math slide) I dont entirely like the explanation of this slide, but the formulas are correct. The reason why the middle term is zero is that all of the epsilons have mean zero. You may notice that the result is not exactly like the L2 penalty of the previous video: the factor 12 is missing. Or equivalently, the strength of the penalty is not sigma i squared, but twice that. The main point, however, is that this noise is equivalent to an L2 penalty. Jargon: overfitting, underfitting, generalization, and regularization Overfitting can be thought of as the model being too confident about what the data is like: more confident than would be justified, given the limited amount of training data that it was trained on. If an alien from outer space would take one look at a street full of cars (each car being a training case), and it so happens that there were only two Volkswagens there, one dark red and one dark blue, then the alien might conclude all Volkswagens on Earth are of dark colours. That would be overfitting. If, on the other hand, the alien would be so reluctant to draw conclusions that he even fails to conclude that cars typically have four wheels, then that would be underfitting. We seek the middle way, where we dont draw more than a few unjustified conclusions, but we do draw most of the conclusions that really are justified. Regularization means forcing the model to draw fewer conclusions, thus limiting overfitting. If we overdo it, we end up underfitting. Jargon: generalization typically means the successful avoidance of both overfitting and underfitting. Since overfitting is harder to avoid, generalization often simply means the absence of (severe) overfitting. The accidental regularities that training data contains are often complicated patterns. However, NNs can learn complicated patterns quite well. Jargon: capacity is learning capacity. Its the amount of potential (artificial) brain power in a model, and it mostly depends on the number of learned parameters (weights biases). March 4 Lecture 9d: Introduction to the full Bayesian approach Videos 9d and 9e are not easy. Theres a lot of math, and not everything is explained in great detail. However, they provide invaluable insights into all regularization techniques. Dont rush through them take your time. The full Bayesian approach is the ultimate in regularization. The gold standard. However, it takes so much computation time, that we always look for approximations to it. The terms prior, likelihood term, and posterior are explained in a more mathematical way at the end of the video, so if youre confused, just keep in mind that a mathematical explanation follows. For the coin example, try not to get confused about the difference between p (the probability of seeing heads) and P (the abbreviation for probability). Jargon: maximum likelihood means maximizing the likelihood term, without regard to any prior that there may be. At 8:22 theres a slightly incorrect statement in the explanation, though not in the slide. The mean is not at .53 (although it is very close to that). Whats really at .53 is the mode, a. k.a. the peak, a. k.a. the most likely value. The Bayesian approach is to average the networks predictions, at test time, where average means that we use network parameters according to the posterior distribution over parameter settings given the training data. Essentially, were averaging the predictions from many predictors: each possible parameter setting is a predictor, and the weight for that weighted average is the posterior probability of that parameter setting. Lecture 9e: The Bayesian interpretation of weight decay In this video, we use Bayesian thinking (which is widely accepted as very reasonable) to justify weight decay (which may sound like an arbitrary hack). Maximum A Posteriori (MAP) learning means looking for that setting of the network parameters that has greatest posterior probability given the data. As such its somewhat different from the simpler Maximum Likelihood learning, where we look for the setting of the parameters that has the greatest likelihood term: there, we dont have a prior over parameter settings, so its not very Bayesian at all. Slide 1 introduces Maximum Likelihood learning. Try to understand well what that has to do with the Bayesian likelihood term, before going on to the next slide. The reason why we use Gaussians for our likelihood and prior is that that makes the math simple, and fortunately its not an insane choice to make. However, it is somewhat arbitrary. 10:15: Dont worry about the absence of the factor 12 in the weight decay strength. It doesnt change the story in any essential way. Lecture 10a: Why it helps to combine models This video is about a very different (and more powerful) method of preventing overfitting. Theres, again, a lot of math, although its less difficult than in videos 9d and 9e. Be sure to understand the formulas before moving on. Were going to combine many models, by using the average of their predictions, at test time. 5:38: Theres a mistake in the explanation of why that term disappears. The mistake is that -2(t-ybar) is not a random variable, so it makes no sense to talk about its variance, mean, correlations, etc. The real reason why the term disappears is simply that the right half of the term, i. e. i, is zero, because ybar is the mean of the yi values. Lecture 10b: Mixtures of Experts This is a different way of combining multiple models. Nearest neighbor is a very simple regression method thats not a neural network. 7:22: The formula is confusing. The idea is a weighted average of squared errors (weighted by those probabilities pi). That can be written as an weighted expectation, with weights pi, of (t-yi)2 or as a sum of pi (t-yi)2. The formula on the slide mixes those two notations. On the next slide its written correctly. 10:03: This formula is not trivial to find, but if you differentiate and simplify, you will find it. March 6 Lecture 10c: The idea of full Bayesian learning In this video you learn what exactly we want to do with that difficult-to-compute posterior distribution. This video shows an ideal method, which is so time-consuming that we can never do it for normal-size neural networks. This is a theory video. We average the predictions from many weight vectors on test data, with averaging weights coming from the posterior over weight vectors given the training data. That sounds simple and is indeed, in a sense, what happens. However, theres more to be said about what this averaging entails. The Bayesian approach is all about probabilities, so the idea of producing a single number as output has no place in the Bayesian approach. Instead, the output is a distribution, indicating how likely the net considers every possible output value to be. In video 9e we introduced the idea that the scalar output from a network really is the mean of such a predictive distribution. We need that idea again here. That is what Geoffrey means at 6:37. Adding noise to the output is a way of saying that the output is simply the centre of a predictive distribution. Whats averaged is those distributions: the predictive distribution of the Bayesian approach is the weighted mean of all those Gaussian predictive distributions of the various weight vectors. By the way, the result of this averaging of many such Gaussian distributions is not a Gaussian distribution. However, if were only interested in the mean of the predictive distribution (which would not be very Bayesian in spirit), then we can simply average the outputs of the networks to get that mean. You can mathematically verify this for yourself. Lecture 10d: Making full Bayesian learning practical Maximum Likelihood is the least Bayesian. Maximum A Posteriori (i. e. using weight decay) is slightly more Bayesian. This video introduces a feasible method thats even closer to the Bayesian ideal. However, its necessarily still an approximation. 4:22: save the weights means recording the current weight vector as a sampled weight vector. Lecture 10e: Dropout This is not Bayesian. This is a specific way of adding noise (that idea was introduced in general in video 9c). Its a recent discovery and it works very, very well. Dropout can be viewed in different ways: One way to view this method is that we add noise. Another more complicated way, which is introduced first in the video, is about weight sharing and different models. That second way to view it serves as the explanation of why adding noise works so well. The first slide in other words: a mixture of models involves taking the arithmetic mean (a. k.a. the mean) of the outputs, while a product of models involves taking the geometric mean of the outputs, which is a different kind of mean. March 13 Lecture 11a: Hopfield Nets Now, we leave behind the feedforward deterministic networks that are trained with backpropagation gradients. Were going to see quite a variety of different neural networks now. These networks do not have output units. These networks have units that can only be in states 0 and 1. These networks do not have units of which the state is simply a function of the state of other units. These networks are, instead, governed by an energy function. Best way to really understand Hopfield networks: Go through the example of the Hopfield network finding a low energy state, by yourself. Better yet, think of different weights, and do the exercise with those. Typically, well use Hopfield networks where the units have state 0 or 1 not -1 or 1. Lecture 11b: Dealing with spurious minima The last in-video question is not easy. Try to understand how the perceptron learning procedure is used in a Hopfield net its not very thoroughly explained. Lecture 11c: Hopfield nets with hidden units This video introduces some sophisticated concepts, and is not entirely easy. An excitatory connection is a connection of which the weight is positive. inhibitory, likewise, means a negative weight. We look for an energy minimum, given the state of the visible units. That means that we look for a low energy configuration, and well consider only configurations in which the visible units are in the state thats specified by the data. So were only going to consider flipping the states of the hidden units. Be sure to really understand the last two sentences that Geoffrey speaks in this video. March 18 Lecture 11d: Using stochastic units to improve search Were still working with a mountain landscape analogy. This time, however, its not an analogy for parameter space, but for state space. A particle is, therefore, not a weight vector, but a configuration. Whats the same is that were, in a way, looking for low points in the landscape. Were also using the physics analogy of systems that can be in different states, each with their own energy, and subject to a temperature. This analogy is introduced in slide 2. This is the analogy that originally inspired Hopfield networks. The idea is that at a high temperature, the system is more inclined to transition into configurations with high energy, even though it still prefers low energy. 3:25: the amount of noise means the extent to which the decisions are random. 4:20: If T really were 0, wed have division by zero, which is not good. What we really mean here is as T gets really, really small (but still positive). For mathematicians: its the limit as T goes to zero from above. Thermal equilibrium, and this whole random process of exploring states, is much like the exploration of weight vectors that we can use in Bayesian methods. Its called a Markov Chain, in both cases. Lecture 11e: How a Boltzmann machine models data Now, were making a generative model of binary vectors. In contrast, mixtures of Gaussians are a generative model of real-valued vectors. 4:38: Try to understand how a mixture of Gaussians is also a causal generative model. 4:58: A Boltzmann Machine is an energy-based generative model. 5:50: Notice how this is the same as the earlier definition of energy. Whats new is that its mentioning visible and hidden units separately, instead of treating all units the same way. Lecture 12a: Boltzmann machine learning 6:50: Clarification: The energy is linear in the weights, but quadratic in the states. What matters for this argument is just that its linear in the weights. March 20 Lecture 12c: Restricted Boltmann Machines 3:02. Here, a particle is a configuration. These particles are moving around the configuration space, which, when considered with the energy function, is our mountain landscape. 4:58. Its called a reconstruction because its based on the visible vector at t0 (via the hidden vector at t0). It will, typically, be quite similar to the visible vector at t0. A fantasy configuration is one drawn from the model distribution by running a Markov Chain for a long time. The word fantasy is chosen as part of the analogy of a Boltzmann Machine vs. a brain that learned several memories. Lecture 12d: An example of RBM learning This is not an easy video. Prerequisite is a rather extensive understanding of what an RBM does. Be sure to understand video 12c quite well before proceeding with 12d. Prerequisite for this video is that you understand the reconstruction concept of the previous video. The first slide is about an RBM, but uses much of the same phrases that we previously used to talk about deterministic feedforward networks. The hidden units are described as feature detectors, or features for short. The weights are shown as arrows, even though a Boltzmann Machine has undirected connections. Thats because calculating the probability of the hidden units turning on, given the state of the visible units, is exactly like calculating the real-valued state of a logistic hidden unit, in a deterministic feedforward network. However, in a Boltzmann Machine, that number is then treated as a probability of turning on, and an actual state of 1 or 0 is chosen, randomly, based on that probability. Well make further use of that similarity next week. 2:30. That procedure for changing energies, that was just explained, is a repeat (in different words) of the Contrastive Divergence story of the previous video. If you didnt fully realize that, then review. Lecture 13a: The ups and downs of back propagation 6:15: Support Vector Machines are a popular method for regression: for learning a mapping from input to output, as we have been doing with neural networks during the first half of the course. March 25 Lecture 13b: Belief Nets 7:43. For this slide, keep in mind Boltzmann Machines. There, too, we have hidden units and visible units, and its all probabilistic. BMs and SBNs have more in common than they have differences. 9:16. Nowadays, Graphical Models are sometimes considered as a special category of neural networks, but in the history thats described here, they were considered to be very different types of systems. March 27 Lecture 13c: Learning sigmoid belief nets It would be good to read the first part of The math of Sigmoid Belief Nets before watching this video. 4:39. The second part of The math of Sigmoid Belief Nets mathematically derives this formula. Read it after finishing this video. 7:04. Actually, those numbers arent quite correct, although theyre not very far off. The take-home message, however, is correct: p(0,1) and p(1,0) are large, while the other two are small. 7:33. Heres explaining away rephrased in a few more ways: If the house jumps, everybody starts wondering what might have caused that. Was there an earthquake Did a truck hit the house Were not at all sure. When the wind then carries, through the open window, the voice of an upset truck driver bemoaning his bad luck, we know that a truck hit the house. That finding explains away the possibility that there might have been an earthquake: all of a sudden, we no longer suspect that there might have been an earthquake, even though we havent consulted the seismological office. In other words: as soon as we learn something about one possible cause (truck hits house), we can make an inference about other possible causes (earthquake). Lecture 13d: The wake-sleep algorithm 4:38. Another way to say this is that the multiple units behave independently: the probability of unit 2 turning on has nothing to do with whether or not unit 1 turned on. 5:30. The green weights are the weights of the Sigmoid Belief Net. An unbiased sample from some distribution is a sample thats really drawn from that distribution. A biased sample is a sample thats not quite from the intended distribution. We dont really do maximum likelihood learning. We just use the maximum likelihood learning rule, while substituting a sample from the posterior by a sample from the approximate posterior. The only maximum likelihood part of it is that the formula for going from that sample to delta w is the same. April 1 Lecture 15a: From PCA to autoencoders Remember how, in assignment 4, were use unsupervised learning to obtain a different representation of each data case PCA is another example of that, but for PCA, theres even greater emphasis on obtaining that different representation. Chapter 15 is about unsupervised learning using deterministic feedforward networks. By contrast, the first part of the course was about supervised learning using deterministic feedforward networks, and the second part was about unsupervised learning using very different types of networks. 0:26. A linear manifold is a hyperplane. 1:25. A curved manifold is no longer a hyperplane. One might say its a bent hyperplane, but really, hyperplane means that its not bent. 1:37. N-dimensional data means that the data has N components and is therefore handled in a neural network by N input units. 1:58. Here, that lower-dimensional subspace is yet another synonym for linear manifold and hyperplane. 2:46 and 3:53. Geoffrey means the squared reconstruction error. 4:43. Here, for the first time, we have a deterministic feedforward network with lots of output units that are not a softmax group. An autoencoder is a neural network that learns to encode data in such a way that the original can be approximately reconstructed. Lecture 15b: Deep autoencoders 2:51. Gentle backprop means training with a small learning rate for not too long, i. e. not changing the weights a lot. Lecture 15c: Deep autoencoders for document retrieval Latent semantic analysis and Deep Learning sound pretty good as phrases. theres definitely a marketing component in choosing such names :) 1:14. The application for the method in this video is this: given one document (called the query document), find other documents similar to it in this giant collection of documents. 2:04. Some of the text on this slide is still hidden, hence for example the count of 1 for reduce. 3:09. This slide is a bit of a technicality, not very central to the story. If you feel confused, postpone focusing on this one until youve understood the others well. 6:49. Remember t-SNE April 3 Lecture 15d: Semantic Hashing Were continuing our attempts to find documents (or images), in some huge given pile, that are similar to a single given document (or image). Last time, we focused on making the search produce truly similar documents. This time, we focus on simply making the search fast (while still good). This video is one of the few times when machine learning goes hand in hand very well with intrinsically discrete computations (the use of bits, in this case). Well still use a deep autoencoder. This video is an example of using noise as a regularizer (see video 9c). Crucial in this story is the notion that units of the middle layer, the bottleneck, are trying to convey as much information as possible in their states to base the reconstruction on. Clearly, the more information their states contain, the better the reconstruction can potentially be. Lecture 15e: Learning binary codes for image retrieval It is essential that you understand video 15d before you try 15e. 7:13. Dont worry if you dont understand that last comment. Lecture 15f: Shallow autoencoders for pre-training This video is quite separate from the others of chapter 15. CSC321 - Introduction to Neural Networks and Machine Learning


No comments:

Post a Comment