Wochennotiz 2025.06

Posted on So 09 Februar 2025 in Blog

Die Woche hat einen Blogbeitrag zum Thema rootless podman und FreeIPA gebracht. Darüber wollte ich schon länger einmal kurz berichten, aber wie sehr oft hat es etwas gedauert, bis ich Zeit gefunden habe.

Währenddessen treibt Elon Musk mit seinen Gefolgsleuten in den USA ein gefährliches Spiel. Dazu habe ich auf einen sehr ausführlichen TechCrunch-Artikel verlinkt.

Paul Ramsey hat wieder einmal einen lesenswerten Beitrag über die Nutzung von Postgis verfasst.

Alles in allem gab es auch diese Woche wieder einige spannende Geschichten.

Inhalt:

Postgres und die Datenwelt

Verbesserte Nutzung bei einem Indexscan

Michael Christofides beschreibt in einem Blog-Posting, warum man selbst bei der Nutzung eines Indexscans die Abfrage noch optimieren kann

Many know that a Seq Scan with a high number of Rows Removed by Filter is a sign an index could help. But the reason an index speeds things up there applies just as much to other scans with large filters, where a better suited index could speed things up!

Just because you’re getting an index scan, doesn't mean you can’t do better!

Cloud Rasterdaten in Postgis

Paul Ramsey beschreibt in einem Blogbeitrag, wie man Rasterdaten, die in der Cloud liegen, relativ einfach in Postgis einbinden kann.

Rasters can be stored inside the database, or outside the database, on a local file system or anywhere it can be accessed by the underlying GDAL raster support library. The storage options include S3, Azure, Google, Alibaba, and any HTTP server that supports RANGE requests.

Using Cloud Rasters with PostGIS

Veranstalungsrecap

Diese Woche gibt es zwei Berichte über zwei unterschiedliche Veranstaltungen.

Einerseits berichtet Ants Aasma über den Prague PostgreSQL Developer Day (P2D2). Wirklich nett hören sich dabei die Geschenke für die Speaker an:

I'm especially thankful to Josef, who had 3D-printed some beautiful elephants as gifts for the speakers!

Zusätzlich berichtet Stefanie Janine Stölting noch über FOSDEM and FOSDEM PGDay 2025. Sie legt auch den Finger in eine Wunde.

That was alike the audience. I have only counted four women, and three of them are members of the PostgreSQL Europe Diversity Committee.

Generell ist die Diversität noch ausbaufähig im Postgres-Umfeld im Speziellen und im Techbereich im Allgemeinen.

Die fehlende Diversität sieht man auch schön an einem Bild, das Tomas Vondra hochgeladen hat. Dabei handelt es sich um ein Bild vom FOSDEM Developer Meeting 2025.

20250130_182814

Um einen (halbwegs) positiven Abschluss zu finden. Das Bewusstsein ist in der Community vorhanden und man bemüht sich daran zu arbeiten. Daher besteht die Hoffnung, dass in Zukunft das Bild ein anderes sein wird.

Postgres Release Monitor

Security und Privacy

Elon Musk und seine Boygroup haben Zugriff auf viel Geld und viele Daten

Zack Whittaker berichtet in TechCrunch von den Umtrieben von Elon Musk und seiner Boygroup vom Department of Government Efficiency (DOGE).

The access by Musk’s DOGE team represents the widest-known compromise of federal government-held data by a private group of individuals — and little has gotten in their way.

Die Geschichten, die man über diese Burschen liest, sind beängstigend. Sensible Daten in eine KI zu füttern, ist dabei nur eins der Probleme.

Ob die Gruppe überhaupt die benötigten Berechtigungen hat, ist auch eine kontroverse Frage:

Questions remain about what level of security clearance the DOGE staff have and whether their interim security clearance gives them the authority to demand access to restricted federal systems. On returning to office, Trump signed an executive order allowing administration officials to grant “top secret” and compartmentalized security clearance to individuals on an interim basis with little to no substantial vetting, a sharp departure from long-established protocols.

Elon Musk gehört meiner Meinung nach definitiv nicht zu den Menschen, denen man Zugriff auf sensible Daten gewähren sollte.

The biggest breach of US government data is under way

AWS S3 buckets

Jonathan Greig berichtet über ein Problem mit S3 buckets.

In S3 buckets schlummern wichtige Daten. Manchmal kann auf diese zugegriffen werden, weil die Zugriffseinstellungen falsch gesetzt sind.

In diesem Fall aber kann man Namen früher verwendeter und gelöschter buckets wieder neu verwenden. Viele Applikationen greifen noch auf die alten buckets zu bzw. merken nicht, dass diese nicht mehr existieren.

So können böswillige Akteure die Namen nochmals verwenden und schon könnte Daten in Applikationen, die darauf zugreifen, manipuliert werden.

Harris said he and other watchTowr experts told AWS that the best solution is to prevent the registration of S3 buckets using names that had been used previously — which is how he and his team were able to take over the abandoned buckets.

This approach would entirely kill this vulnerability class (abandoned infrastructure) in the context of AWS S3. As always, there is likely an argument about the usability trade off, the ability to transfer S3 buckets between accounts, etc — but we do wonder if these requirements outweigh the impact we have demonstrated through our research,” he said.

“We recognize that we are not AWS S3 experts and would defer to AWS for the reasoning behind why preventing the registration of S3 buckets using names that had been used previously, an on-the-face-of-it-relatively-logical-change, has not been deemed appropriate or implemented yet.”

Researchers warn of risks tied to abandoned cloud storage buckets

PyPI erlaubt Archivierung von Projekten

Bill Toulas berichtet über neue Entwicklungen bei PyPI. Diese Entwicklungen erlauben es nun Projekte zu archivieren:

The projects will still be hosted on PyPI, and users will still be able to download them but they will see a warning about the maintenance status, to help them make informed decisions about their dependencies.

The new feature seeks to improve the security of the supply-chain, as hijacking developer accounts and pushing malicious updates to widely used but abandoned projects is a common scenario in the open-source space.

Grundsätzlich ist es ein Schritt in die richtige Richtung, da man in der Vergangenheit auch immer wieder mit Problemen zu kämpfen hatte. Und von verlassenen Projekte, sie auch Beitrag zu AWS S3 buckets, immer eine gewisse Gefahr ausgeht.

PyPI adds project archiving system to stop malicious updates

Schwachstellen in Nextcloud

Ein vom Bundesamtes für Sicherheit in der Informationstechnik (BSI) mitfinanziertes Audit von Nextcloud hat einige kritische Bugs zutage gefördert.

Die unter CVE-2024-37313 gemeldete Sicherheitslücke mit hohem Gefahrenpotenzial ermöglichte es Angreifern, die 2FA zu umgehen und einen Account mit ihnen bekannten Zugangsdaten zu übernehmen.

BSI-Analyse von Nextcloud: Zwei-Faktor-Authentifizierung war angreifbar

Data breach ticker

AI

DeepSeek

Auch nach dem ersten Hype wird medial über DeepSeek berichtet. Im derStandard wird berichtet, wie US-Abgeordnete mittlerweile Bedenken hinsichtlich der Sicherheit haben:

Deepseek stelle wegen der "direkten Verbindungen" des dahinterstehenden Unternehmens mit der chinesischen Regierung eine "besorgniserregende Bedrohung" dar.

Wobei neben der chinesischen Herkunft im Artikel auch handfeste technische Probleme erwähnt werden:

Wie eine Analyse von Nowsecure zeigt, verschickt die App unverschlüsselt Daten an die Server des Betreibers, womit sie nicht nur auf dem Weg abgefangen, sondern auch manipuliert werden könnten. Das scheint auch kein Versehen zu sein, die von Apple von Haus aus aktivierte "App Transport Security" für die Transportverschlüsselung wurde offenbar gezielt deaktiviert. [...] Die App-Entwickler seien "nicht in der Lage oder bereit, grundlegende Sicherheitsvorkehrungen für Daten und Identität zu treffen", lautet das vernichtende Verdikt der Sicherheitsforscher. Es gebe "grundlegende Sicherheitspraktiken, die entweder absichtlich oder unabsichtlich nicht beachtet werden".

US-Abgeordnete wollen Deepseek verbieten, Sicherheitsforscher warnen vor App

Verwendet Meta illegal via Bittorrent heruntergeladene Bücher zum Training?

Ashley Belanger berichtet bei Ars Technica, dass Meta bewusst sich für Bücherquellen aus illegalen Quellen entschieden hat, um die Modelle zu trainieren.

Last month, Meta admitted to torrenting a controversial large dataset known as LibGen, which includes tens of millions of pirated books. But details around the torrenting were murky until yesterday, when Meta's unredacted emails were made public for the first time. The new evidence showed that Meta torrented "at least 81.7 terabytes of data across multiple shadow libraries through the site Anna’s Archive, including at least 35.7 terabytes of data from Z-Library and LibGen," the authors' court filing said. And "Meta also previously torrented 80.6 terabytes of data from LibGen."

“Torrenting from a corporate laptop doesn’t feel right”: Meta emails unsealed

Google macht Gemini 2.0 für alle verfügbar und ändert einen Werbespot vor Super Bowl-Ausstrahlung

Gemini 2.0 ist nun für alle verfügbar. Wie üblich bei diesen Ankündigungen ist alles einfach besser :-)

Gemini 2.0 is now available to everyone

In einem Super Bowl-Werbespot von Google wurden falsche Behauptungen hinsichtlich der Verbreitung von Gouda aufgestellt. Das haben sie geändert. Die Angaben zu Daten waren scheinbar zu hoch gegriffen, aber dabei handelt es sich laut Google nicht um hallucination, sondern um Falschangaben:

Replying to him, the Google executive Jerry Dischler said this was not a “hallucination” – where AI systems invent untrue information – but rather a reflection of the fact the untrue information is contained in the websites that Gemini scrapes.

Man könnte jetzt meinen, ob Falschangaben oder Halluzination ist Semantik, aber ich vermute, bei Google legt man sehr viel Wert auf die Betonung von letzterem, da man schließlich sein Produkt verkaufen will ;-)

Google edits Super Bowl ad for AI that featured false information

LLMs und PDFs

Diese Woche sind gleich zwei Blog-Beiträge zu dem Thema "viral" gegangen.

Sergey Filimonov beschreibt in seinem Beitrag Google Gemini 2.0 als Gamechanger bei der Verarbeitung von PDFs.

While in my opinion the developer experience with Google still lags behind OpenAI, their cost-effectiveness is impossible to ignore. Unlike 1.5 Flash, which had subtle inconsistencies that made it difficult to rely on in production, our internal testing shows Gemini Flash 2.0 achieves near-perfect OCR accuracy while being still being incredibly cheap.

Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything

Pulse Software veröffentlicht einen Beitrag, wo sie darstellen, warum LLMs ihrer Meinung nach bei OCR-Aufgaben nicht besonders gut sind.

Data ingestion is a multistep pipeline, and maintaining confidence from these nondeterministic outputs over millions of pages is a problem.

LLM’s suck at complex OCR, and probably will for a while. LLMs are excellent for many text-generation or summarization tasks, but they falter at the precise, detail-oriented job of OCR—especially when dealing with complicated layouts, unusual fonts, or tables. [...] What makes LLMs particularly dangerous for OCR is their tendency to make subtle substitutions that can drastically change document meaning. Unlike traditional OCR systems that fail obviously when uncertain, LLMs make educated guesses that appear plausible but may be entirely wrong.

Why LLMs Suck at OCR

Diverses

AWS ist nicht immer die richtige Lösung

Travis Bumgarner erzählt in einem Blogbeitrag, warum AWS nichts für ihn und seine Projekte ist. Neben dem Damoklesschwert unerwarteter Rechnungen, geht es auch um over-engineering.

I have noticed that we as engineers have a tendency over-engineer systems. We tend to mimic the practices of companies like Facebook or Netflix. We over-engineer solutions, choosing technologies that are often overkill for our actual needs. For me, AWS was far more than I needed.

Escaping Surprise Bills & Over-engineered Messes: Why I Left AWS