import lxml.html, re
import pandas as pd

# Unicode characters
nbsp = chr(0x00A0)
emdash = chr(0x2014)

url = "https://publichealthsbc.org/status-reports/"


raw_page = open("data/cache.html").read().replace(nbsp, "")
page = lxml.html.fromstring(raw_page)


table_constraint = (
    "descendant::td//text()[contains(.,'Geographic Area')]"
    " and "
    "descendant::td//text()[contains(.,'Confirmed Cases')]"
)

blocks = page.xpath(
    "//div[starts-with(@id,'elementor-tab-title')]"
    "[following-sibling::div/table[" + table_constraint + "]]"
)


dates = [
    pd.to_datetime(re.match(r"\w+ \d{1,2}, \d{4}", b.find("a").text).group(0))
    for b in blocks
]

tables = [
    pd.read_html(
        lxml.html.tostring(
            b.xpath("following-sibling::div/table[" + table_constraint + "]")[0]
        ),
        header=0
    )[0]
    for b in blocks
]


def form_df(table, date):
    # combine a single table (dataframe) and a single date
    if "Total Confirmed Cases" in table.columns:
        colname = "Total Confirmed Cases"
    else:
        colname = "Confirmed Cases"
    table = table[["Geographic Area", colname]].rename(
        columns={"Geographic Area": "area", colname: "cases"}
    )
    table["cases"] = table["cases"].replace(emdash, "0").astype(int)
    table["date"] = date  # add a date column
    table = table[~table.area.str.contains(r"Total|Pending")]  # filter out non-areas
    return table

table = pd.concat(form_df(t, d) for t, d in zip(tables, dates))


table = pd.concat(
    [
        table.drop_duplicates(["area", "date"]),
        pd.read_csv("data/historical.csv", parse_dates=["date"])
    ]
)


table.to_csv("data/data.csv", index=False)

Scraping SBCPHD¶