QueryList递归采集结果异常:文档示例与实际结果为何不一致?

wufei123 2025-04-06 阅读:35 评论:0
QueryList递归采集:预期结果与实际结果差异分析及解决方案 在使用QueryList进行多层级数据抓取时,开发者常常遇到文档示例与实际运行结果不一致的情况。本文将通过一个案例,深入分析问题根源并提供有效的解决方案。 问题描述: 目标...

querylist递归采集结果异常:文档示例与实际结果为何不一致?

QueryList递归采集:预期结果与实际结果差异分析及解决方案

在使用QueryList进行多层级数据抓取时,开发者常常遇到文档示例与实际运行结果不一致的情况。本文将通过一个案例,深入分析问题根源并提供有效的解决方案。

问题描述:

目标是从HTML结构中提取标题和列表信息。HTML结构如下:

PHP
<div id="demo">
    <ul><li>
          <h3>xxx</h3>
          <div class="list">
            <div class="item">item1</div>
            <div class="item">item2</div>
          </div>
        </li>
         <li>
          <h3>xxx2</h3>
          <div class="list">
            <div class="item">item12</div>
            <div class="item">item22</div>
          </div>
        </li>
    </ul></div>

使用QueryList代码进行数据提取:

PHP
// ... (代码片段缺失,无法完整分析) ...

预期结果是分别提取每个

  • 下的

    标题和item内容。但实际结果却是item内容合并:
    PHP
    Array ( 
        [0] => Array ( [title] => xxx [list] => Array ( [item] => item1item2 ) ) 
        [1] => Array ( [title] => xxx2 [list] => Array ( [item] => item12item22 ) ) 
    )

    问题分析:

    问题在于内层QueryList对象继承了外层QueryList对象的range参数。range('')并没有真正重置选择器,导致其仍然使用外层range('#demo li')的选择器,从而导致item内容合并。 这可能是由于QueryList内部机制或代码中其他问题导致的。range('') 并非总是能正确重置范围,需要更深入的分析。

    解决方案:

    为了解决这个问题,需要确保内层QueryList对象独立于外层对象工作。 单纯的range('')可能无效,我们需要更可靠的方法。以下几种方案可以尝试:

    1. 使用更精确的选择器: 避免使用range(),直接在rules中使用更精确的CSS选择器,例如:
    PHP
    $data = querylist::html($html)
        ->rules([
            'title' => ['h3', 'text'],
            'list' => ['.list .item', 'text'] // 直接选择所有.item元素
        ])
        ->range('#demo li')
        ->query(); //  注意这里直接使用query(),不再需要querydata()的递归
    dump($data);

    此方法直接提取所有.item元素的文本内容,避免了递归带来的问题。

    1. 手动循环处理: 放弃QueryList的递归功能,手动循环处理每个
    2. 元素:
    PHP
    $lis = querylist::html($html)->find('#demo li');
    $data = [];
    foreach ($lis as $li) {
        $item = [];
        $item['title'] = querylist::html($li)->find('h3')->text();
        $items = querylist::html($li)->find('.list .item')->map(function($item){return $item->text();})->all();
        $item['list'] = $items;
        $data[] = $item;
    }
    dump($data);

    这种方法更清晰,更容易理解和调试。

    1. 深入检查QueryList源码和文档: 如果以上方法无效,则需要深入研究QueryList的源码和文档,查找range()方法的具体行为和潜在问题,并尝试其他QueryList提供的功能来解决这个问题。 可能需要检查QueryList版本和PHP版本兼容性。

    选择哪种方案取决于具体需求和对QueryList的熟悉程度。 建议优先尝试方法1,因为它简洁高效。如果方法1无法满足需求,再考虑方法2。 方法3是最后的选择,需要更深入的编程知识。 记住始终检查QueryList的官方文档和示例代码,以确保正确使用其功能。

  • 以上就是QueryList递归采集结果异常:文档示例与实际结果为何不一致?的详细内容,更多请关注知识资源分享宝库其它相关文章!

    版权声明

    本站内容来源于互联网搬运,
    仅限用于小范围内传播学习,请在下载后24小时内删除,
    如果有侵权内容、不妥之处,请第一时间联系我们删除。敬请谅解!
    E-mail:dpw1001@163.com

    分享:

    扫一扫在手机阅读、分享本文

    发表评论
    热门文章
    • BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)

      BioWare埃德蒙顿工作室面临关闭危机,龙腾世纪制作总监辞职引关注(龙腾.总监.辞职.危机.面临.....)
      知名变性人制作总监corrine busche离职bioware,引发业界震荡!外媒“smash jt”独家报道称,《龙腾世纪:影幢守护者》制作总监corrine busche已离开bioware,此举不仅引发了关于个人职业发展方向的讨论,更因其可能预示着bioware埃德蒙顿工作室即将关闭而备受关注。本文将深入分析busche离职的原因及其对bioware及游戏行业的影响。 Busche的告别信:挑战与感激并存 据“Smash JT”获得的内部邮件显示,Busche离职原...
    • 闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)

      闪耀暖暖靡城永恒怎么样-闪耀暖暖靡城永恒套装介绍(闪耀.暖暖.套装.介绍.....)
      闪耀暖暖钻石竞技场第十七赛季“华梦泡影”即将开启!全新闪耀性感套装【靡城永恒】震撼来袭!想知道如何获得这套精美套装吗?快来看看吧! 【靡城永恒】套装设计理念抢先看: 设计灵感源于夜色中的孤星,象征着淡然、漠视一切的灰色瞳眸。设计师希望通过这套服装,展现出在虚幻与真实交织的夜幕下,一种独特的魅力。 服装细节考究,从面料的光泽、鞋跟声响到裙摆的弧度,都力求完美还原设计初衷。 【靡城永恒】套装设计亮点: 闪耀的绸缎与金丝交织,轻盈的羽毛增添华贵感。 这套服装仿佛是从无尽的黑...
    • python怎么调用其他文件函数

      python怎么调用其他文件函数
      在 python 中调用其他文件中的函数,有两种方式:1. 使用 import 语句导入模块,然后调用 [模块名].[函数名]();2. 使用 from ... import 语句从模块导入特定函数,然后调用 [函数名]()。 如何在 Python 中调用其他文件中的函数 在 Python 中,您可以通过以下两种方式调用其他文件中的函数: 1. 使用 import 语句 优点:简单且易于使用。 缺点:会将整个模块导入到当前作用域中,可能会导致命名空间混乱。 步骤:...
    • 俄罗斯引擎yandex入口官网地址 yandex网址在线免费进入(俄罗斯.官网.在线免费.入口.地址......)

      俄罗斯引擎yandex入口官网地址 yandex网址在线免费进入(俄罗斯.官网.在线免费.入口.地址......)
      俄罗斯引擎yandex官网地址入口在哪里?这是不少网友都关注的问题,接下来由php小编为大家带来yandex网址在线免费进入,感兴趣的网友一起随小编来瞧瞧吧! 俄罗斯引擎yandex入口官网地址 1、俄罗斯引擎yandex入口官网地址☜☜☜☜☜点击进入 2、yandex网址在线免费进入☜☜☜☜☜点击进入 【俄罗斯引擎yandex】 1、Yandex的搜索引擎在俄罗斯拥有极高的市场份额,其算法针对俄语和斯拉夫语系进行了优化,能更好地理解用户意图,提供更精准的搜索结果。它不仅...
    • 斗魔骑士哪个角色强势-斗魔骑士角色推荐与实力解析(骑士.角色.强势.解析.实力.....)

      斗魔骑士哪个角色强势-斗魔骑士角色推荐与实力解析(骑士.角色.强势.解析.实力.....)
      斗魔骑士角色选择及战斗策略指南 斗魔骑士游戏中,众多角色各具特色,选择适合自己的角色才能在战斗中占据优势。本文将为您详细解读如何选择强力角色,并提供团队协作及角色培养策略。 如何选择强力角色? 斗魔骑士的角色大致分为近战和远程两种类型。近战角色通常拥有高攻击力和防御力,适合冲锋陷阵;远程角色则擅长后方输出,并依靠灵活走位躲避攻击。 选择角色时,需根据个人游戏风格和喜好决定。喜欢正面硬刚的玩家可以选择战士型角色,其高生命值和防御力能承受更多伤害;偏好策略性玩法的玩家则可以选择法...