selenium 获取table数据

本文介绍了一种利用WebDriver和Java编程技术抓取网页中表格数据的方法。通过具体实例展示了如何定位并读取表格中的特定单元格内容及整个表格的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

public class Table {

    /**
     * @param args
     */
    public static void main(String[] args) {
        // TODO Auto-generated method stub
        WebDriver driver = ExplorerBase.IESetting();
        String url = "http://zs.njust.edu.cn/newzs/news/zhxw/20140710151805.htm";
        driver.manage().window().maximize();// 最大化
        driver.get(url);
        String setscroll = "document.documentElement.scrollTop=300";
        JavascriptExecutor jse = (JavascriptExecutor) driver;
        jse.executeScript(setscroll);
        Table table = new Table(driver);
        //根据By获取table数据
        By by = By.xpath(".//*[@id='count2']/table[1]/tbody/tr[5]/td/div/table");
        System.out.println(table.getCellText(by, "1.1"));//行列都从1开始,更符合用户习惯
        
        //根据xpath获取table数据
        String  xpath=".//*[@id='count2']/table[1]/tbody/tr[5]/td/div/table";//table对应的xpath
        String[][] arr=table.getTableData(xpath,2);
        System.out.println(arr[1][1]);//行列都从1开始,更符合用户习惯
        driver.quit();

    }

    private WebDriver driver;

    Table(WebDriver driver) {
        this.driver = driver;
    }

    /**
     * 从一个table的单元格中得到文本值. 参数tableCellAddress的格式为 row.column, 行列从0开始.
     * 
     * @param by
     *            用于得到table对象
     * @param tableCellAddress
     *            一个单元格地址, 如. "1.4"
     * @return 从一个table的单元格中得到文本值
     */
    public String getCellText(By by, String tableCellAddress) {
        // 得到table元素对象
        WebElement table = driver.findElement(by);
        // 对所要查找的单元格位置字符串进行分解,得到其对应行、列。
        int index = tableCellAddress.trim().indexOf('.');
        int row = Integer.parseInt(tableCellAddress.substring(0, index));
        int cell = Integer.parseInt(tableCellAddress.substring(index + 1));
        // 得到table表中所有行对象,并得到所要查询的行对象。
        List<WebElement> rows = table.findElements(By.tagName("tr"));        
        WebElement theRow = rows.get(row-1);//获取指定单行, 对出传入的行列都做-1
        // 调用getCell方法得到对应的列对象,然后得到要查询的文本。
        String text = getCell(theRow, cell-1).getText();
        return text;
    }
/**
 * 获取指定x,y值
 * @param Row行
 * @param cell列
 * @return 返回指定单元格的元素
 */
    private WebElement getCell(WebElement Row, int cell) {
        List<WebElement> cells;
        WebElement target = null;
        // 列里面有"<th>"、"<td>"两种标签,所以分开处理。
        if (Row.findElements(By.tagName("th")).size() > 0) {
        
            cells = Row.findElements(By.tagName("th"));
            target = cells.get(cell);
        }
        if (Row.findElements(By.tagName("td")).size() > 0) {
            cells = Row.findElements(By.tagName("td"));
            target = cells.get(cell);
        }
        return target;

    }
    /**
     * 获取table数据
     * @param xpath table对应的xpath
     * @param maxColRow 列最多的一行的行数
     * @return 以二维数组的形式返回table数据
     */
    public String[][] getTableData(String xpath,int maxColRow) {
        WebElement table=driver.findElement(By.xpath(xpath));
        List<WebElement> rows = table.findElements(By.tagName("tr"));//获取行tr的集合
        int rowCount=rows.size();
        List<WebElement> cols = driver.findElement(By.xpath(xpath+"/tbody/tr["+maxColRow+"]")).findElements(By.tagName("td"));//获取列td的集合
        int colCount=cols.size();
        //System.out.println("行数:"+rowCount+"列数:"+colCount);
        String[][] arr=new String[rowCount][colCount];
        String txt;
        for (int i = 1; i < rowCount; i++) {
            for (int j = 1; j < colCount; j++) {
                try {
                    txt= driver.findElement( By.xpath(xpath+"/tbody/tr["+(i)+"]/td["+(j)+"]")).getText();
                } catch (Exception e) {
                    txt="";
                }        
                txt=txt.replace("\n", "");
                txt=txt.replace("\r", "");    
                //System.out.println("行数:"+i+"    列数:"+j);
                arr[i-1][j-1]=txt;
            }
        }
        return arr;
    }
}

 

转载于:https://www.cnblogs.com/changshuo/p/3841585.html

使用Selenium获取表格数据的步骤如下: 1. 首先,需要使用`find_elements_by_tag_name`方法获取所有的`table`元素。这可以通过调用`GetTableElements`函数来实现。\[1\] 2. 接下来,可以使用XPath或其他方法定位到需要获取数据的表格。例如,可以使用XPath定位到表格的`tbody`元素。\[3\] 3. 使用`find_elements_by_tag_name`方法获取表格中的所有行元素,可以使用`tr`标签定位。\[3\] 4. 遍历每一行元素,可以使用`text`属性获取每一行的文本内容。可以使用`split`方法将文本内容按照空格分割成列表,得到每一行的数据。将每一行的数据添加到一个列表中。\[3\] 5. 最后,返回包含所有表格数据的列表。\[3\] 请注意,以上步骤是一个示例,具体的实现可能需要根据网页的结构和表格的特点进行调整。 #### 引用[.reference_title] - *1* [Python学习:用Selenium读取网页表格](https://blog.youkuaiyun.com/qdPython/article/details/127446876)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Python+Selenium获取列表数据(根据查询值进行编辑/删除操作)](https://blog.youkuaiyun.com/yutian8233/article/details/118769903)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值