Blogspektrogramm #6

Das Schöne an den Beiträgen zum Blogspektrogramm ist, dass sie immer irgendwelche Fragen beantworten, die man als Sprachinteressierter schon lange gehabt hat. In meinem Fall waren das diesmal diese:

  • Manche schreiben outgesourcet, manche outgesourced – ist das eine rein orthografische Verwirrung oder gibt es entsprechende Unterschiede in der Aussprache?
  • Warum steht in frz. dimanche das di im Gegensatz zu den anderen Wochentagsbezeichnungen vorn, wie ist das im Katalanischen und Spanischen und welche sprachgeschichtlichen Zusammenhänge gibt es?
  • Mit welchen Tricks und Vereinfachungen kriegt die Sprachenenzyklopädie Ethnologue es hin, Sprachen nach Erdteilen zu sortieren?
  • Wie wirkt mein Ich von vor fünf Jahren im Video von der Abschlussrede im Rhetorik-Seminar und was hatte es über Vornamen zu sagen?
  • Kennen auch andere das Problem, dass man an manchen Nomen- und Pronomengruppen partout keinen Genitiv markiert kriegt und wenn ja, haben sie herausgefunden, welche genau das sind?
  • Ist das Wort Zerealien eine Erfindung von Werbefuzzis (Tipp: nein, ist es nicht)?

Wer auch nur eine dieser Fragen teilt, sollte im Sprachlog beim sechsten Blogspektrogramm vorbeischauen.

Wrong Independence Assumptions

When you build probabilistic models of something (say natural language grammars), you always fall prey, to some degree or other, to wrong independence assumptions. For example, a model might capture the fact that two events are each very probable to occur, but fail to capture the fact that they are quite improbable to occur together. Since it’s always nice to have examples from everday life or popular culture for scientific concepts, I’m referring the following dialogue from The Big Bang Theory, in which Sheldon quite conspicuously makes a wrong independence assumption:

HOWARD: Someone has to go up with the telescope as a payload specialist, and guess who that someone is.
SHELDON: Muhammad Li.
HOWARD: Who’s Muhammad Li?
SHELDON: Muhammad is the most common first name in the world, Li, the most common surname. As I didn’t know the answer, I thought that gave me a mathematical edge.

User Guidance Fail

Und dann wundern sie sich, dass ich ohne das ausgefüllte Formular auf dem Amt erscheine. Bei der Vorbereitung auf den zweiten Besuch springt dann anhand der Farben der Links sofort ins Auge, was schiefgelaufen ist:

Register

Gegensätze

Ich mag es, wenn zwei ähnliche Wörter Gegensätzliches bedeuten, denn es schult die Präzision des Ausdrucks:

  • entsetzen/entzücken
  • Fusion/Fission
  • Besitzer/Besetzer
  • hyper-/hypo-
  • Knoten/Kante
  • mundan/mundial
  • physisch/psychisch
  • sub-/super-

Und im Englischen:

  • conventional/conversational implicature
  • elevator/escalator
  • nature/nurture
  • overt/covert
  • push/pop

Und im Lateinischen:

  • varus/valgus

Es ist aber auch schön, wenn Wörter zur Bezeichnung sehr ähnlicher Dinge überraschend wenige Bestandteile gemeinsam haben:

  • Hydraulik/Pneumatik

Knick und Gegenknick

Großes Vergnügen bereitete mir gestern die Lektüre von Christoph Dieckmanns aktuellem Zeit-Artikel über den einsturzgefährdeten schiefen Turm von Bad Frankenhausen. Da heißt es nämlich:

Ein junger Mann eilt auf uns zu. Am Revers seines Jacketts zwackt der schiefe Turm.

Und später:

Wird das Geld bewilligt, gehört der Turm neuerdings der Stadt, die ihn – vorbehaltlich der Förderung – durch Ratsbeschluss vom 1. September 2011 für einen Euro von der Evangelischen Kirche Mitteldeutschlands erwarb. Der Kirchenleitung fielen 2800 Tonnen Turmgewicht vom Herzen.

Und schließlich:

Seit Jahrhunderten wird dieser älteste Kurpatient verarztet. 1761 setzte man ihm die barocke Haube lotrecht auf, zur Korrektur der Neigung. Einziger Effekt blieb ein charmanter Gegenknick.

Unconditionally Make Implicit Prerequisites

I’m pretty new to make so maybe the following is trivial and/or horribly bad practice, but here goes: I have this bunch of output directories, each containing a file called en.tok from which I want to make a corrected version, en.tok.corr. Apart from en.tok, en.tok.corr also depends on the script that applies the corrections, and on a MySQL database that contains the corrections. Since make doesn’t know about databases, I chose to represent the database by an empty file en.tok.db and use touch in a second rule to set its timestamp to that of the latest relevant correction so make knows whether to rerun the first rule:

$(OUT)%/en.tok.corr : $(OUT)%/en.tok $(OUT)%/en.tok.db ${PYTHON}/correct_tokenization.py
	${PYTHON}/correct_tokenization.py $> $@

$(OUT)%/en.tok.db :
	touch -t $$(${PYTHON}/latest_correction.py $@) $@

But how can I force make to apply that second rule every time? We need to know if there are new corrections in the database, after all. My first idea was to declare the target $(OUT)%/en.tok.db phony by making it a prerequisite of the special target .PHONY, but that doesn’t work since the % wildcard is apparently only interpreted in rules whose target contains it. Thanks to this post by James T. Kim, I found a solution: instead of declaring $(OUT)%/en.tok.db phony itself, just make it depend on an explicit phony dummy target:

$(OUT)%/en.tok.db : dummy
	touch -t $$(${PYTHON}/latest_correction.py $@) $@

.PHONY : dummy

Blogspektrogramm #5

Welche Minderheitensprachen sind durch das Deutsche bedroht? Welches Genus hat das Wort Virus? Was ist eine Todo-Wolke? Wie grenzt man Brücken, Tunnels, Unter- und Überführungen voneinander ab? Woher kommt die Wendung es läppert sich? Dies und mehr diesen Monat im fünften Blogspektrogramm, dem Blogkarneval zum Thema Sprache, diesen Monat bei Kristin Kopf im [ʃplɔk] zu Gast!