Dienstag, 30. September 2008, 11-12 Uhr - Raum: W9-109
R is miscalculating! Whose fault is it?
JProf. Dr. Uwe Ligges
Technische Universität Dortmund
In this talk some kinds of `miscalculations' in R are shown. We will start looking at `simple' tasks such as simply addition, calculation of variance and inversion of matrices where `miscalculation' is caused by the use of a digital computer - and the useR is `misanticipating'. Further on we will investigate two simple statistical applications in regression and classification analysis where `miscalculation' is caused by useR errors.
Dienstag, 14. Oktober 2008, 11-12 Uhr - Raum: W9-109
Forecasting Water Temperatur and the Specification of Landmarks - Water Management in the River Wupper
Dipl.-Wirt. Math. Thomas Mestekemper
Bielefeld University
We present and analyse a data set containing water and air temperature in the river Wupper in the northern part of Germany. The analysis pursues two concrete aspects. First, we focus on forecasting water temperature using smooth principal components. Secondly, it is of interest to find so called landmarks, these are regularly occuring timepoints at which the temperature follows particular pattern. These landmarks will be used to assess whether the current year is running ahead or behind the "average" seasonal course of a year. We also apply the sieve bootstrap which allows to assess the variability of the specified landmarks. The implications of our modelling exercise are purely economic. The data trace from a larger project which aims to develop a temperature managment tool for two power plants along the river Wupper. These use river water for cooling purposes and to preserve natural wild life in the river there is a strict limit of the maximal temperature of the water. The latter constraints the possible production range of the power plant. More accurate forecasts therefore mean a higher potential of energy production.
Dienstag, 28. Oktober 2008, 11-12 Uhr - Raum: W9-109
Quantile regression: method and applications
Prof. Dr. Harry Haupt
Bielefeld University
Die Quantilsregression (QR) ist eine direkte Verallgemeinerung der Schätzung von Stichprobenquantilen auf den Regressionsfall, analog zur Verallgemeinerung der Schätzung des Stichprobenmittelwerts auf die Kleinst-Quadrate (KQ) Regression. An Stelle der Modellierung des konditionalen Erwartungswertes E(y|x) im KQ-Fall sollen ein oder mehrere konditionale Quantile Q_r(y|x), 0<r<1, Gegenstand von statistischer Schätzung und Inferenz sein. Interessanterweise wurde der Spezialfall des Medians Q_0.5(y|x) lange vor der KQ-Methode eingeführt und diskutiert. Im Vortrag sollen potentielle inhaltliche und statistische Vorzüge der QR gegenüber gängigen Verfahren zur Modellierung von E(y|x) andiskutiert werden, u.a. das breitere Interpretationsspektrum, Robustheit und Verteilungsfreiheit. Dazu wird die Anwendung (mit R) und Interpretation der QR exemplarisch erläutert.
Dienstag, 11. November 2008, 11-12 Uhr - Raum: W9-109
Frequentist model averaging
Dipl.-Vw. Christian Heinze
Bielefeld University
Datenmodellierung ist der erste Schritt in vielen statistischen Untersuchungen. Häufig ist die theoretische Erforschung des Untersuchungsgegenstands unvollständig und mit einer Vielzahl an Spezifikationen kompatibel. Üblicherweise wird dann ein datengestütztes Verfahren zur Wahl eines besten Modells eingesetzt. Dieses Modell wird anschließend als korrekte Spezifikation angesehen und bildet die Basis weiterer Analysen und Vorhersagen. Allerdings ist eine solche Wahl häufig unsicher. Werden Statistiken nun aus dem gewählten Modell abgeleitet, so reflektieren ihre Stichprobeneigenschaften diese Unsicherheit. Insbesondere können sich die Eigenschaften substantiell vom Fall einer als korrekt bekannten Spezifikation unterscheiden. Eine Möglichkeit zur Berücksichtigung dieser Auswahlunsicherheit ist die Verwendung konvexer Kombinationen der Schätzer mehrerer plausibler Modelle. Die Gewichte werden datenbasiert ermittelt. Der Vortrag soll einige solcher Verfahren vorstellen und mit der Verwendung eines einzigen gewählten Modells vergleichen.
Dienstag, 25. November 2008, 11-12 Uhr - Raum: W9-109
The analysis of intervention effects based on average causal effects
Prof. Mark Stemmler, Ph.D.
Bielefeld University
Herkömmlicherweise werden zur Überprüfung von Interventions- oder Behandlungseffekten Mittelwertsunterschiede zwischen Behandlungs- und Kontrollgruppe berechnet. Der Nachteil besteht darin, dass die erzielten Mittelwerte unter Umständen den tatsächlichen Behandlungseffekt verschleiern. Diese Möglichkeit besteht immer dann, wenn anstatt eines echten experimentellen Designs mit Randomisierung nur ein quasi-experimentelles Design zur Anwendung kommt. Dadurch kann es beispielsweise zu einer Konfundierung kommen zwischen der Behandlungsbedürftigkeit und der Mitgliedschaft in Behandlungs- bzw. Kontrollgruppe, d.h. die Bedürftigeren befinden sich in der Behandlungsgruppe, die weniger Bedürftigeren in der Kontrollgruppe. Die Wirksamkeit der Intervention bzw. Behandlung hängt damit auch von der Bedürftigkeit, bzw. den Testwerten zu Behandlungsbeginn (T1) ab. Das kausale Regressionsmodell nach Steyer (2003) trägt solchen bedingten (konditionalen) Effekten Rechnung. In diesem Modell wird ein „kausaler unverfälschter Treatmenteffekt“ aufgrund der Differenz der Erwartungswerte unterschiedlicher konditionaler Regressionen geschätzt.
Dienstag, 9. Dezember 2008, 11-12 Uhr - Raum: W9-109
On Some Recent Developments in Multivariate Analysis
Dr. Holger Kösters
Bielefeld University
The investigation of sample covariance matrices is of fundamental importance in multivariate analysis. In classical multivariate analysis one typically considers the situation where the number of variables is small in comparison to the sample size. In modern applications, however, these two are often of the same order of magnitude. It turns out that the classical procedures from multivariate analysis may perform poorly in this new situation and that the construction of better procedures leads to difficult questions concerning the (asymptotic) distribution of large sample covariance matrices and various statistics associated with them. I will present some basic phenomena, a few rigorous results and many open questions in this direction.
Dienstag, 13. Januar 2009, 11-12 Uhr - Raum: W9-109
Vergleich zweier robuster Schätzer der Personenfähigkeit im Rahmen von Item Response Modellen
Prof. Dr. Christof Schuster
Universität Gießen
Item Response Modelle werden in der psychologischen Diagnostik zur Schätzung von Personeneigenschaften bzw. -fähigkeiten verwendet. Da diese Personenmerkmale nicht direkt beobachtet werden können und im Rahmen der Item Response Theorie als Prädiktoren der Itemantworten fungieren, werden diese Modelle auch als Faktorenanalyse für binäre Daten bezeichnet. Für bekannte Itemparameter werden zur Schätzung der Personeneigenschaften -- also der latenten Prädiktorwerte -- in der Regel Maximum-Likelihood- bzw. Bayes-Schätzer verwendet. Als Alternative zu diesen Schätzmethoden werden in dem Vortrag robuste Schätzer der Personenfähigkeit diskutiert.
Dienstag, 27. Januar 2009, 10.30-12 Uhr - Raum: W9-109
Facing the Drop-Out Problem - Results of a Simulation Study Testing the Quality of Case Deletion, Improved Mean Imputation for Longitudinal Data and Bayesian Multiple Imputation
Dipl.-Psych., BSocSc(Hons) Kristian Blank
Bielefeld University
Three relative simple methods to analyze incomplete panel data were examined: case deletion, improved mean imputation for panel data, and multiple imputation under a normal model. The quality of these approaches regarding estimations of population parameters and measures of uncertainty was tested. Case deletion worked well if missing values were either missing completely at random or did not exceed about 5% of the data. Improved mean imputation worked well, if missing values were either missing completely at random (MCAR) and did not exceed about 40% of the data, or if values were missing at random (MAR) and did not exceed about 10% of the data. Multiple imputation under a normal model was the best of the three methods, yielding good results even under very high fractions of missing values or when the missing data process did not follow a completely random pattern.
Der Einsatz von Poisson-Regressionsmodellen zur Messung von Konsumentenpräferenzen auf Basis von Kaufdaten
Dipl. Kfm. Sören W. Scholz
Bielefeld University
Die Messung von Konsumentenpräferenzen ermöglicht in der Neuproduktentwicklung die frühzeitige Bewertung der Marktchancen neuer Produkt- und Leistungsangebote. Durch die verstärkte elektronische Erfassung des Konsumentenverhaltens in Internet-Verkaufsportalen und Bonuskartenprogrammen stehen Händlern heutzutage weit reichende Informationen über die Kaufhandlungen ihrer Kunden zur Verfügung. In diesem Vortrag wird der Einsatz von Poisson-Regressionmodellen zur Bestimmung der Konsumentenpräferenzen auf Basis dieser Kaufdaten diskutiert. Die gewählte Vorgehensweise weist Analogien zur Conjoint-Analyse auf und ermöglicht Einblicke in die der Inanspruchnahme bzw. Nichtinanspruchnahme alternativer Leistungsangebote zugrunde liegenden Präferenzstrukturen. Die prinzipielle Vorgehensweise wird am Beispiel von Scannerdaten eines SB-Warenhauses sowie Online-Buchungsdaten eines großen Reiseanbieters vorgestellt.
Dienstag, 10. Februar 2009, 11-12 Uhr - Raum: W9-109
On the Behavior of Marginal and Conditional Akaike Information Criteria in Linear Mixed Models
Dr. Thomas Kneib
Ludwig-Maximilians-University Munich
Akaike's information criterion (AIC) is frequently used in regression models to determine the model specification most suitable for describing a specific data generating mechanism. In particular, in linear mixed models, the AIC is often employed to differentiate between models including and excluding a specific random effect. As nonparametric regression models using penalized splines can be estimated as certain linear mixed models, a related model choice is between linear and more general smooth models. Two versions of the AIC have been proposed for the linear mixed model, namely the marginal AIC derived from the implied marginal model, and the conditional AIC that is build upon the conditional model formulation. We investigate theoretical properties of both, and shed light on their differences. We find that the marginal AIC is no longer an asymptotically unbiased estimator for twice the expected relative Kullback-Leibler distance, and in fact favors smaller models without random effects. This behavior is related to recent findings on the non-standard asymptotics of likelihood ratio tests for variance components, which are on the boundary of the parameter space under the null hypothesis. For the conditional AIC, we show that while it is computationally costly for large sample sizes to correct for estimation uncertainty in the effective degrees of freedom, this uncertainty cannot be neglected even asymptotically. Ignoring the uncertainty, as is common practice, induces a bias that yields the following behavior: Whenever the random effects variance is estimated to be positive, the more complex model is preferred, regardless of the value of the estimated variance. The theoretical results are supplemented and illustrated by simulation studies, and their impact on practical data analyses is investigated in an application on childhood malnutrition in a developing country.