Los algoritmos de descubrimiento causal que dependen de tests de independencia condicional suelen asumir que el conjunto completo de variables está disponible desde el inicio, una suposición que deja de cumplirse cuando las variables llegan de manera secuencial como streaming features. Por ejemplo, aquellas variables que no pueden recolectarse completamente al inicio como las derivadas de redes sociales que dependen de noticias en tiempo real. Presentamos FCI-FS, una extensión del algoritmo Fast Causal Inference (FCI) para feature streams (FS) y el primer método basado en restricciones que es incremental, correcto, completo, y que actualiza el grafo causal cada vez que llega un nuevo lote de variables. FCI-FS trata el grafo aprendido en el paso previo como un partial ancestral graph (PAG) y, aprovechando un nuevo resultado teórico que muestra que cada arista eliminada en un PAG anterior permanece ausente al revelarse nuevas variables, FCI-FS reutiliza información previa de tests de independencia condicional para evitar tests redundantes. Una implementación open-source en Python, construida sobre la librería pgmpy, demuestra empíricamente las mejoras en tiempo de computación y eficiencia en el número de tests de independencia condicional logradas por FCI-FS.
ABSTRACT
Causal discovery algorithms that rely on conditional independence (CI) tests usually assume that the full set of variables is available from the outset, an assumption that breaks down when features arrive over time as streaming features. For example, features that cannot be fully collected upfront, such as those derived from social networks that depend on real-time news. We introduce FCI-FS, an extension of the Fast Causal Inference (FCI) algorithm for feature streams (FS) and the first sound, complete, and incremental constraint-based method that refreshes the causal graph each time a new batch of features arrives. FCI-FS treats the graph learned in the previous step as a partial ancestral graph (PAG) and, leveraging a new theoretical result that shows every edge deleted in an earlier PAG remains absent after new variables are revealed, FCIFS reuses prior CI information to avoid redundant tests. An open-source Python implementation, built on the pgmpy library, empirically highlights the runtime and CI tests efficiency gains achieved by FCI-FS.
Los algoritmos de descubrimiento causal que dependen de tests de independencia condicional suelen asumir que el conjunto completo de variables está disponible desde el inicio, una suposición que deja de cumplirse cuando las variables llegan de manera secuencial como streaming features. Por ejemplo, aquellas variables que no pueden recolectarse completamente al inicio como las derivadas de redes sociales que dependen de noticias en tiempo real. Presentamos FCI-FS, una extensión del algoritmo Fast Causal Inference (FCI) para feature streams (FS) y el primer método basado en restricciones que es incremental, correcto, completo, y que actualiza el grafo causal cada vez que llega un nuevo lote de variables. FCI-FS trata el grafo aprendido en el paso previo como un partial ancestral graph (PAG) y, aprovechando un nuevo resultado teórico que muestra que cada arista eliminada en un PAG anterior permanece ausente al revelarse nuevas variables, FCI-FS reutiliza información previa de tests de independencia condicional para evitar tests redundantes. Una implementación open-source en Python, construida sobre la librería pgmpy, demuestra empíricamente las mejoras en tiempo de computación y eficiencia en el número de tests de independencia condicional logradas por FCI-FS.
ABSTRACT
Causal discovery algorithms that rely on conditional independence (CI) tests usually assume that the full set of variables is available from the outset, an assumption that breaks down when features arrive over time as streaming features. For example, features that cannot be fully collected upfront, such as those derived from social networks that depend on real-time news. We introduce FCI-FS, an extension of the Fast Causal Inference (FCI) algorithm for feature streams (FS) and the first sound, complete, and incremental constraint-based method that refreshes the causal graph each time a new batch of features arrives. FCI-FS treats the graph learned in the previous step as a partial ancestral graph (PAG) and, leveraging a new theoretical result that shows every edge deleted in an earlier PAG remains absent after new variables are revealed, FCIFS reuses prior CI information to avoid redundant tests. An open-source Python implementation, built on the pgmpy library, empirically highlights the runtime and CI tests efficiency gains achieved by FCI-FS. Read More


